TET Plugin

PDFlib GmbH

Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text Extraction Toolkit (TET).

Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text Extraction Toolkit (TET). Obwohl das TET Plugin als Plugin in Acrobat arbeitet, nutzt es nicht die Acrobat-eigenen Funktionen, sondern der Textextrakt beruht komplett auf der TET-Technologie.

Das Plugin wird von PDFlib GmbH als Technologiestudie zur Verfügung gestellt, um die mächtigen Funktionen von TET zu verdeutlichen. Da TET mehr bietet als der in Acrobat eingebaute Textextrakt und sein Interface einige interessante Funktionen enthält, bietet sich das TET Plugin als Ersatz für die in Acrobat eingebauten Kopier- und Suchfunktionen an. PDFlib TET kann viele Dokumente erfolgreich verarbeiten, aus denen Acrobat nur Unbrauchbares herausliest. Das TET Plugin bietet die folgenden Funktionen:

  • Kopieren von Text aus einem PDF-Dokument als reinen Text oder XML in die Zwischenablage oder eine Datei. Eine erweiterte Kontrolle des Clipboards erleichtert den Einsatz von Copy und Paste.
  • PDF in einen XML-Dilaket namens TETML konvertieren und in der Zwischenablege oder einer Datei ablegen.
  • Kopieren der XMP-Metadaten des Dokuments in die Zwischenablage oder eine Datei.
  • Finden von Wörtern im Dokument. Der Suchtext kann einfach eingeben oder in hexadezimaler Syntax angegeben werden, um auch nach ungewöhnlichen Zeichen zu suchen zu können.
  • Alle Vorkommnisse eines Suchbegriffes auf einer Seite gleichzeitig hervorheben.
  • Extrahieren von Bildern als TIFF, JEPG oder JEPEG 2000.
  • Anzeigen von Farbraum- und Platzierungsinformationen von Bildern.
  • Die Textextraktion lässt sich durch Konfiguration genau an die eigenen Anforderungen anpassen. Die Einstellungen lassen sich speichern und wieder verwenden.

Vorteile gegenüber der Kopierfunktion in Acrobat

Die Kopierfunktion des TET Plugins ist in vielen Punkten der in Acrobat eingebauten Kopierfunktion überlegen:

  • Die Ausgabe kann so angepasst werden, dass sie in vielen Programmen verwendet werden kann.
  • TET ist in vielen Fällen in der Lage den Text richtig zu interpretieren, in denen Acrobat nur Unbrauchbares kopiert.
  • Unbekannte Zeichen (für die keine gültiges Unicode-Mapping besteht) markiert TET mit einem roten Rand. Der Anwender kann auch entscheiden sie durch ein Zeichen seiner Wahl (etwa ein Fragezeichen) zu ersetzen.
  • TET verarbeitet Dokumente sehr viel schneller als Acrobat.
  • Bilder können interaktiv für den Export ausgewählt werden. Alernativ lassen sich auch alle Bilder einer Seite extrahieren.
  • Kleine Bildfragemente werden zu brauchbaren Bildern zusammengesetzt.

Was ist PDFlib TET?

PDFlib Text Extraction Toolkit (TET) ist die Technologie, die hinter dem TET Plugin steckt. TET ist ein Entwickler-Werkzeug für die zuverlässige Extraktion von Text aus PDF-Dokumenten. TET stellt den Text aus einem PDF als Unicode-String zur Verfügung und liefert darüber hinaus auch genaue Informationen über Zeichen und Fonts sowie über deren Position auf der Seite.

Zusätzlich enthält TET erweiterte Algorithmen für die Inhaltsanalyse, mit denen sich Wortgrenzen und Spalten erkennen lassen. Auch doppelter Text kann entfernt werden, wie er manchmal durch Schatten oder künstlich gefettete Zeichen entsteht.
Zusätzlichen stellt das integrierte pCOS ein Interface zur Verfügung, mit dem sich weitere Daten aus dem PDF gewinnen lassen, etwa Metadaten, interaktive Elemente und vieles mehr.

PDFlib TET lässt sich zum Beispiel so verwenden:

  • Ein Searchengine um PDF-Unterstützung erweitern;
  • Text aus PDF-Dokumenten in einer Datenbank speichern;
  • Texte in andere Formate speichern, etwa XML;
  • PDF-Dokumente abhängig von ihrem Inhalt unterschiedlich verarbeiten.

TET steht sowohl als Programmierbibliothek für verschiedene Entwicklungsumgebungen zur Verfügung als auch als Commandline-Tool für den Batch-Betrieb. Beide bieten ähnliche Funktionen, eignen sich aber für unterschiedliche Einsatzzwecke.

Voll funktionsfähige Demoversionen von PDFlib TET stehen hier zur Verfügung.

Producer: PDFlib GmbH

More information: http://www.pdflib.com/de/produkte/tet-plugin/

About PDFlib GmbH

PDFlib GmbH ist auf die Entwicklung von PDF-Technologie spezialisiert. PDFlib-Produkte sind seit 1997 weltweit im Einsatz. Das Unternehmen berücksichtigt wichtige technologische Trends, etwa ISO-Standards für PDF.