Deutsche Übersetzung ein/ausblenden

PDFlib TET Plugin

Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text Extraction Toolkit (TET). Obwohl das TET Plugin als Plugin in Acrobat arbeitet, nutzt es nicht die Acrobat-eigenen Funktionen, sondern der Textextrakt beruht komplett auf der TET-Technologie. Das Plugin wird von PDFlib GmbH als Technologiestudie zur Verfügung gestellt, um die mächtigen Funktionen von TET zu verdeutlichen. Da TET mehr bietet als der in Acrobat eingebaute Textextrakt und sein Interface einige interessante Funktionen enthält, bietet sich das TET Plugin als Ersatz für die in Acrobat eingebauten Kopier- und Suchfunktionen an. PDFlib TET kann viele Dokumente erfolgreich verarbeiten, aus denen Acrobat nur Unbrauchbares herausliest. Das TET Plugin bietet die folgenden Funktionen:

  • Kopieren von Text aus einem PDF-Dokument als reinen Text oder XML in die Zwischenablage oder eine Datei. Eine erweiterte Kontrolle des Clipboards erleichtert den Einsatz von Copy und Paste.
  • PDF in einen XML-Dilaket namens TETML konvertieren und in der Zwischenablege oder einer Datei ablegen.
  • Kopieren der XMP-Metadaten des Dokuments in die Zwischenablage oder eine Datei.
  • Finden von Wörtern im Dokument. Der Suchtext kann einfach eingeben oder in hexadezimaler Syntax angegeben werden, um auch nach ungewöhnlichen Zeichen zu suchen zu können.
  • Alle Vorkommnisse eines Suchbegriffes auf einer Seite gleichzeitig hervorheben.
  • Extrahieren von Bildern als TIFF, JEPG oder JEPEG 2000.
  • Anzeigen von Farbraum- und Platzierungsinformationen von Bildern.
  • Die Textextraktion lässt sich durch Konfiguration genau an die eigenen Anforderungen anpassen. Die Einstellungen lassen sich speichern und wieder verwenden.

Vorteile gegenüber der Kopierfunktion in Acrobat

Die Kopierfunktion des TET Plugins ist in vielen Punkten der in Acrobat eingebauten Kopierfunktion überlegen:

  • Die Ausgabe kann so angepasst werden, dass sie in vielen Programmen verwendet werden kann.
  • TET ist in vielen Fällen in der Lage den Text richtig zu interpretieren, in denen Acrobat nur Unbrauchbares kopiert.
  • Unbekannte Zeichen (für die keine gültiges Unicode-Mapping besteht) markiert TET mit einem roten Rand. Der Anwender kann auch entscheiden sie durch ein Zeichen seiner Wahl (etwa ein Fragezeichen) zu ersetzen.
  • TET verarbeitet Dokumente sehr viel schneller als Acrobat.
  • Bilder können interaktiv für den Export ausgewählt werden. Alernativ lassen sich auch alle Bilder einer Seite extrahieren.
  • Kleine Bildfragemente werden zu brauchbaren Bildern zusammengesetzt.

Was ist PDFlib TET?

PDFlib Text Extraction Toolkit (TET) ist die Technologie, die hinter dem TET Plugin steckt. TET ist ein Entwickler-Werkzeug für die zuverlässige Extraktion von Text aus PDF-Dokumenten. TET stellt den Text aus einem PDF als Unicode-String zur Verfügung und liefert darüber hinaus auch genaue Informationen über Zeichen und Fonts sowie über deren Position auf der Seite. Zusätzlich enthält TET erweiterte Algorithmen für die Inhaltsanalyse, mit denen sich Wortgrenzen und Spalten erkennen lassen. Auch doppelter Text kann entfernt werden, wie er manchmal durch Schatten oder künstlich gefettete Zeichen entsteht. Zusätzlichen stellt das integrierte pCOS ein Interface zur Verfügung, mit dem sich weitere Daten aus dem PDF gewinnen lassen, etwa Metadaten, interaktive Elemente und vieles mehr. PDFlib TET lässt sich zum Beispiel so verwenden:

  • Ein Searchengine um PDF-Unterstützung erweitern;
  • Text aus PDF-Dokumenten in einer Datenbank speichern;
  • Texte in andere Formate speichern, etwa XML;
  • PDF-Dokumente abhängig von ihrem Inhalt unterschiedlich verarbeiten.

TET steht sowohl als Programmierbibliothek für verschiedene Entwicklungsumgebungen zur Verfügung als auch als Commandline-Tool für den Batch-Betrieb. Beide bieten ähnliche Funktionen, eignen sich aber für unterschiedliche Einsatzzwecke. Voll funktionsfähige Demoversionen von PDFlib TET stehen hier zur Verfügung.


PDFlib TET Plugin

Produced by PDFlib GmbH

The TET Plugin provides easy access to the PDFlib Text Extraction Toolkit (TET). Although the TET Plugin runs as an Acrobat plugin, the underlying content extraction features do not use Acrobat functions, but are completely based on TET. The TET Plugin is provided as a free tool which demonstrate the power of PDFlib TET. Since the TET Plugin is more powerful than Acrobat’s built-in text and image extraction tools and offers a number of convenient user interface features, it is useful as a replacement for Acrobat’s built-in copy and find features. PDFlib TET can successfully process many documents for which Acrobat provides only garbage when trying to extract the text. The TET Plugin offers the following functions:

  • Copy the text from a PDF document in plain text to the system clipboard or a disk file. Enhanced clipboard controls facilitate the use of copy/paste.
  • Convert a PDF to an XML dialect called TETML and place it in the clipboard or a disk file.
  • Copy XMP document metadata to the clipboard or a disk file.
  • Find words in the document. The search text can be supplied literally or in hex syntax to facilitate the search for unusual characters.
  • Highlight all instances of a search term on the page simultaneously.
  • Extract images from the document as TIFF, JPEG, or JPEG?2000 files.
  • Display color space and position information for images.
  • Detailed configuration settings are available to adjust text and image extraction to your requirements. Configuration sets can be saved and reloaded.

Advantages over Acrobat’s copy function

The copy feature of the TET Plugin offers several advantages over Acrobat’s built-in copy facility:

  • The output can be customized to match different application requirements.
  • TET is able to correctly interpret the text in many cases where Acrobat copies only garbage to the clipboard.
  • Unknown glyphs (for which proper Unicode mapping cannot be established) will be highlighted in red color, and can be replaced with a user-selected character (e.g. question mark).
  • TET processes documents much faster than Acrobat.
  • Images can be selected interactively for export, or all images on the page or in the document can be extracted.
  • Tiny image fragments are merged to usable images.

What is PDFlib TET?

The PDFlib Text Extraction Toolkit (TET) is the underlying engine of the TET Plugin. TET is a developer product for reliably extracting text from PDF documents. TET makes available the text contents of a PDF as Unicode strings, plus detailed glyph and font information as well as the position on the page. In addition, TET contains advanced content analysis algorithms for determining word boundaries, grouping text into columns and removing redundant text, such as shadows or artificially bolded text. Using the auxiliary pCOS interface you can retrieve arbitrary objects from the PDF, such as metadata, interactive elements, etc. With PDFlib TET you can:

  • Implement a search engine for processing PDF;
  • Extract text from PDFs, e.g. to store it in a database;
  • Convert text contents of PDFs to other formats, such as XML;
  • Process PDFs based on their contents.

TET is available as a programming library (component) for various development environments, and as a command-line tool for batch operations. Both offer similar features, but are suitable for different deployment tasks.
Fully functional evaluation versions of PDFlib TET for a variety of platforms are available here.




PDF interest area(s):

PDF in general

Feature(s):

Reuse Developer tools Convert from PDF

Product sector:

Search Publishing

© 2019 Assosiation for Digital Document Standards e.V. | Privacy Policy | Imprint