Anleitung: Dokumentensuche mit Apache Solr in Drupal mit Tika

27 Juni 2011 von Andy Kommentieren »

Dateianhänge durchsuchen wie PDF, DOC,… mit Tika auf einem Ubuntu Webserver

In Drupal können mit dem Modul Apache Solr Attachments auch Dateianhänge indiziert werden. Dies ist nützlich wenn man viele PDF´s,.. auf seinem Webserver hat. Mit Tika können Texte und Metadaten extrahiert werden und an Lucene zur Indizierung weitergegeben werden. Dies ist das perfekte Modul für jedes Intranet das mit Drupal erstellt wird.

Extrahierbare Dokumententypen:

  • PDF
  • DOC
  • DOCX
  • XLS
  • XLSX
  • VSD (Visio)
  • TXT
  • uvm.

Anleitung:

Schritt 1: Installation von Maven2

apt-get install maven2

Schritt 2: Download von Tika 0.6

wget http://archive.apache.org/dist/lucene/tika/apache-tika-0.6-src.zip

Entpacken:

unzip apache-tika-0.6-src.zip

Schritt 3: Ausführen von Maven

Gehen Sie hierzu in das Verzeichnis von Tika und führen Sie folgenden Befehl aus:

cd tika-0.6
mvn install

Dies dauert jetzt bis zu 10 Minuten.

Wenn ein Memory Fehler ensteht starten Sie Maven so:

MAVEN_OPTS=-Xmx256m mvn clean install

Schritt 4: Download vom Apache Solr Attachments Modul für Drupal

Laden Sie die Datei Apache Solr Attachments herunter und kopieren Sie die entpackte Datei in das Drupal Verzeichnis /modules/

Schritt 5: Aktivierung und Konfiguration des Moduls

Gehen Sie in Drupal unter Strukturierung –> Module und aktivieren Sie das Modul Apache Solr Attachments.

Nun gehen Sie unter Website-Einstellungen –> Apache Solr –> Dateianhänge

Geben Sie hier bitte ein:

Extract Using: Tika
Tika directory path: /apache-tika-0.9/tika-app/target/
Tika jar file: tika-app-0.9.jar

Nun können Sie eine Test Datei hochladen und das ganze testen:

Die Testdatei wird indiziert!

Werbung

Hinterlasse eine Antwort

*

Kommentarlinks könnten nofollow frei sein.