10.11.2011, 00:00 Uhr
Metadatenprozessor Apache Tika 1.0 veröffentlicht
Das Toolkit spürt Metadaten und strukturierten Text in unterschiedlichen Dokumenten auf und extrahiert ihn. Das Tika-Projekt stellt die erste stabile Version Tika 1.0 vor. Tika wurde ursprünglich als Unterprojekt von Lucene entwickelt. Das Toolkit dient zur automatisierten Analyse von Dokumenten unterschiedlicher Art. Darin findet die Software strukturierten Text und Metadaten, die sie anschliessend extrahiert und in anderen Anwendungen zur Verfügung stellt. Dabei greift Tika auf existierende Parser-Bibliotheken zurück.
In Version 1.0 haben sich noch einige Änderungen ergeben. Verbesserungen gibt es bei der Konfiguration, die den Anwender nicht mehr auf die Parser und Erkennungsklassen des jeweiligen Standard-Class-Loaders festlegt. In einer OSGi-Umgebung benutzt Tika automatisch die verfügbaren Parser und Erkennungsdienste, die zur Verfügung stehen. Schliesslich haben die Entwickler für Tika 1.0 noch alle veralteten API-Methoden entfernt. (ph/webdev) Apache Tika
In Version 1.0 haben sich noch einige Änderungen ergeben. Verbesserungen gibt es bei der Konfiguration, die den Anwender nicht mehr auf die Parser und Erkennungsklassen des jeweiligen Standard-Class-Loaders festlegt. In einer OSGi-Umgebung benutzt Tika automatisch die verfügbaren Parser und Erkennungsdienste, die zur Verfügung stehen. Schliesslich haben die Entwickler für Tika 1.0 noch alle veralteten API-Methoden entfernt. (ph/webdev) Apache Tika