PDFlib TET (Text Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen über Fonts und Zeichen sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bilddatenformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält.
TET verfügt über ausgefeilte Algorithmen zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen oder redundanten Text entfernen, zum Beispiel Schatteneffekte oder künstliche Fettschrift. Mit der pCOS-Schnittstelle können Sie zudem beliebige Objekte aus einem PDF-Dokument abfragen, zum Beispiel Metadaten oder interaktive Elemente.
Mit PDFlib TET können Sie:
- eine Suchmaschine für PDF-Dokumente implementieren
- Texte und Bilder aus PDFs wieder verwerten
- Inhalte von PDFs in andere Formate konvertieren
- PDFs abhängig von ihren Inhalten verarbeiten, z.B. anhand von Überschriften aufteilen (erfordert zusätzlich PDFlib+PDI)
Producer: PDFlib GmbH
More information: http://www.pdflib.com/de/produkte/tet/
Deutsch
English