PDFlib TET

PDFlib GmbH

PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten.

PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen zu Farbe, Glyphen und Fonts sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bildformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält.

TET verfügt über einen ausgefeilten Algorithmus zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen und redundanten Text entfernen. Mit der pCOS-Schnittstelle können Sie zudem beliebige Objekte aus einem PDF-Dokument abfragen, zum Beispiel Metadaten oder interaktive Elemente.

Mit PDFlib TET können Sie:

  • eine Suchmaschine für PDF-Dokumente implementieren
  • Texte und Bilder aus PDFs wieder verwerten
  • Inhalte von PDFs in andere Formate konvertieren
  • PDFs abhängig von ihren Inhalten verarbeiten, z.B. anhand von Überschriften aufteilen (erfordert zusätzlich PDFlib+PDI)
  • Prüfen, ob eine bestimmte Stelle auf der Seite leer ist oder Text, Bilder oder Vektorgrafik enthält

TET-Produktfamilie

Die TET-Produktfamilie besteht aus folgenden Produkten:

Text and Image Extraction Toolkit (TET), das Kernprodukt zur Extraktion von Text, Bildern, Metadaten und anderen Elementen aus PDF.

TET PDF IFilter extrahiert Text und Metadaten aus PDF-Dokumenten, um sie Retrieval-Produkten unter Windows zugänglich zu machen. Es ist als separates Produkt verfügbar und eignet sich zur Anwendung mit Microsofts Retrieval-Produkten, wie Windows Search, Sharepoint- und SQL Server.

TET Plugin, ein kostenloses Plugin für Adobe Acrobat, um Text und Bilder aus PDF-Dokumenten zu extrahieren. Damit können Sie die hervorragende Text- und Bildextraktion von TET interaktiv testen.

Producer: PDFlib GmbH

More information: http://www.pdflib.com/de/produkte/tet/

About PDFlib GmbH

PDFlib GmbH ist auf die Entwicklung von PDF-Technologie spezialisiert. PDFlib-Produkte sind seit 1997 weltweit im Einsatz. Das Unternehmen berücksichtigt wichtige technologische Trends, etwa ISO-Standards für PDF.