Dateianhänge durchsuchen wie PDF, DOC,… mit Tika auf einem Ubuntu Webserver
In Drupal können mit dem Modul Apache Solr Attachments auch Dateianhänge indiziert werden. Dies ist nützlich wenn man viele PDF´s,.. auf seinem Webserver hat. Mit Tika können Texte und Metadaten extrahiert werden und an Lucene zur Indizierung weitergegeben werden. Dies ist das perfekte Modul für jedes Intranet das mit Drupal erstellt wird.
Extrahierbare Dokumententypen:
- DOC
- DOCX
- XLS
- XLSX
- VSD (Visio)
- TXT
- uvm.
Anleitung:
Schritt 1: Installation von Maven2
Schritt 2: Download von Tika 0.6
Entpacken:
Schritt 3: Ausführen von Maven
Gehen Sie hierzu in das Verzeichnis von Tika und führen Sie folgenden Befehl aus:
Dies dauert jetzt bis zu 10 Minuten.
Wenn ein Memory Fehler ensteht starten Sie Maven so:
Schritt 4: Download vom Apache Solr Attachments Modul für Drupal
Laden Sie die Datei Apache Solr Attachments herunter und kopieren Sie die entpackte Datei in das Drupal Verzeichnis /modules/
Schritt 5: Aktivierung und Konfiguration des Moduls
Gehen Sie in Drupal unter Strukturierung –> Module und aktivieren Sie das Modul Apache Solr Attachments.
Nun gehen Sie unter Website-Einstellungen –> Apache Solr –> Dateianhänge
Geben Sie hier bitte ein:
Extract Using: Tika
Tika directory path: /apache-tika-0.9/tika-app/target/
Tika jar file: tika-app-0.9.jar
Nun können Sie eine Test Datei hochladen und das ganze testen:
Die Testdatei wird indiziert!

