OCR im PDF – „Schnee von gestern“?

Thomas Zellmann // November 22, 2019

PDF in general Article


Das Scannen ins Portable Document Format (PDF) oder PDF/A mit Texterkennung sollte im Alltag von Unternehmen inzwischen selbstverständlich sein. Denn dies ermöglicht, gescannte Dokumente in Text zu konvertieren, der ausgewählt, durchsucht und bearbeitet werden kann. Dennoch wissen viele Verantwortliche nicht, worauf sie bei der Auswahl einer neuen OCR-Lösung oder der Optimierung einer existierenden OCR-Strecke achten sollten.

Das ist allen voran die Erkennungsqualität, die natürlich möglichst hoch sein sollte. Denn wenn die OCR „Hel1o Wor d“ statt „Hello World“ erkennt, funktioniert die einfache Suche bis hin zu modernen KI-Anwendungen nicht. Als netten Detail-Test kann der Leser mal prüfen, ob seine OCR bei der Suche das Wort „Weihnachtsmann“ findet, wenn im Dokument „Weihnachts-mann“ umgebrochen ist?

Wenn allerdings alte, vergilbte Dokumente oder verblasstes Faxpapier gescannt und erfasst wird, müssen Unternehmen zwangsläufig Abstriche in Kauf nehmen. Jedoch kann ein normales Geschäftsdokument eine sehr hohe Erkennungsrate erreichen, wenn professionelle Scan-Hardware genutzt wird. Den Stand der Technik bilden heute Farb-Scans mit einer Auflösung von 300 dpi. Eine einfache Sichtprüfung in Word funktioniert mit Copy/Paste. Für Scans bietet zum Beispiel der kostenfreie Foxit Reader eine praktische Funktion, den erkannten OCR-Text direkt anzuzeigen.

Gute Performance

Ein weiteres Kriterium ist die Performance der OCR-Engine. Sie kommt insbesondere dann zum Tragen, wenn in einem hochvolumigen Posteingang sehr viele Seiten zeitnah verarbeitet werden müssen. Professionelle OCR-Lösungen – wie von den Mitgliedern der PDF Association – verwenden komplexe Software-Algorithmen, um eine höchstmögliche Erkennung zu erzielen, die Rechenzeit benötigen. Hingegen gibt es Lösungen, die schneller arbeiten, dafür aber über eine schlechte Erkennungsrate verfügen.

Gute OCR-Engines zeichnen sich zudem dadurch aus, dass sie zum Abgleich mit den erkannten Buchstaben Wörterbücher für die Erkennung nutzen. Sprach-Unterstützung ist dann wichtig, wenn es sich nicht nur um deutschsprachige Dokumente handelt. Neben den gängigen lateinischen Sprachen wie Französisch oder Spanisch kann auch die Unterstützung von Sprachen wie Arabisch, Hebräisch oder Chinesisch, Japanisch und Koreanisch wichtig sein – und je nach Anbieter weitere Kosten verursachen.

Die sogenannte zonale OCR stellt je nach Anwendungsgebiet eine weitere wichtige Funktion dar – insbesondere bei großformatigen Plänen. Denn in solchen Plänen gibt es häufig Kopf- oder Fuß-Textblöcke, die mit OCR erkannt werden sollen, während im Plan selbst keine Texte zu erkennen sind.

Hervorragendes Format

Last, but not least ist von Bedeutung, welche zusätzlichen Ausgabe-Formate die OCR-Lösung unterstützt. Denn standardmäßig werden die OCR-Ergebnisse in die PDF-Datei eingebettet. Jedoch benötigen in der Praxis viele Anwendungen die OCR-Ergebnisse auch in einer separaten Datei. Sie sind für die Indizierung der PDF-Dokumente erforderlich oder moderne KI-Anwendungen brauchen die Inhalte der gescannten Dokumente als Input. Das Spektrum reicht von plain .txt über MS-Office bis hin zu ALTO-XML oder anderen XML-Formaten.

Wenn neue KI-Anwendungen noch bessere Inhalte benötigen oder die aktuelle OCR-Erkennung unzureichend ist, lohnt sich ein zweiter Blick auf die verwendete Lösung.

Zusammenfassung

PDF ist ein hervorragendes Dokumentenformat, um OCR einzubetten und die gescannten PDFs somit volltextfähig zu machen. Darüber hinaus bietet PDF für gescannte Dokumente weitere interessante Möglichkeiten, nämlich die Kompression und eine plattform- bzw. betriebssystemunabhängige Wiedergabe.


ABOUT THE AUTHORS

Thomas Zellmann
Thomas Zellmann

Thomas Zellmann has been working in electronic data processing (EDP) for more than 30 years and has extensive experience with classic and modern IT solutions. Prior to joining LuraTech/Foxit in 2001 he worked for Softmatic AG, Software AG and Nixdorf among others. Zellmann focuses on the banking/insurance and archives/libraries segments. As Managing Director of the PDF Association Thomas coordinates and …

ABOUT THE AUTHORS

Thomas Zellmann

Thomas Zellmann

Thomas Zellmann has been working in electronic data processing (EDP) for more than 30 years and has extensive experience with …

© 2019 Assosiation for Digital Document Standards e.V. | Privacy Policy | Imprint