Wie funktioniert KI auf alten (TIFF)-Archiven?

Thomas Zellmann // November 5, 2019

PDF in general Article


Viele Anwender wollen jetzt Lösungen mit Künstlicher Intelligenz (KI) einsetzen, um aus vorhandenen Daten und Dokumenten ihre Geschäftsprozesse zu verbessern. Moderne KI-Algorithmen bieten viele Möglichkeiten, aber brauchen guten Daten-Input, um sinnvolle Ergebnisse zu erzielen.

Aus digitalen, aber unstrukturierten Dokumenten können KI-Anwendungen die benötigten Daten vergleichsweise einfach extrahieren und verwerten.

In der Realität haben Anwender natürlich Archive, in denen Dokumente der vergangenen Jahre und Jahrzehnte archiviert wurden, die wichtige Geschäftsinformationen enthalten. Dazu kommt nach wie vor der Scan-Bereich, in dem z. B. der Papier-Posteingang digitalisiert wird.

Oft liegen diese Dateien im alten TIFF-Format vor und das sind technisch betrachtet, nur „Pixel-Wolken“, die erst mal nicht auswertbar sind. Je nach Anwendung wurde teilweise auch Content „vernichtet“, weil existierende Lösungen, z. B. im Posteingang die eingehenden Mails einfach erstmal „verTIFFt“ haben, um technisch dann denselben Weg wie die Papierpost im Workflow zu nehmen.

Für diese wichtigen Dokumenten-Bestände bietet sich PDF als modernes Format an, sodass KI-Anwendungen dann auch aus diesen „dummen“ Dokumenten die benötigten Daten extrahieren können.

Schritt 1 für diese Raster-Formate wie TIFF ist natürlich die OCR, die durch Zeichen- und Wort-Erkennung diese Dokumente etwas intelligenter macht.

Der Markt und unsere Mitglieder bieten viele Lösungen, um PDF-Dateien mithilfe von OCR durchsuchbar zu machen. Bei der Auswahl einer OCR-Lösung gibt es einige Aspekte zu beachten. Die Erkennungsqualität ist natürlich ein entscheidendes Kriterium. Im Zusammenhang mit KI-Anwendungen kann es wichtig sein, welche weiteren Ausgabe-Formate die OCR-Lösung anbietet, weil diese in der Regel einfacher als Input in eine KI-Software „eingefüttert“ werden können anstatt diese Informationen dann aus der PDF-Datei zu extrahieren.

OCR erzeugt – einfach gesagt – nur Buchstaben und Wörter und keine Struktur-Informationen des Dokuments. Dafür gibt es in PDF sogenannte Tags, die es ermöglichen, die Struktur eines Dokuments zu beschreiben. Ein wichtiger Anwendungsfall für PDF-Tags ist die Barrierefreiheit, die es z. B. blinden Anwendern ermöglicht, diese Dokumente vorzulesen zu lassen.

Analog kann man sich KI-Anwendungen auch als „blind“ vorstellen, die Hilfe zum Verständnis der Dokumente benötigen. Ein simples Beispiel ist die Überschrift in einem Dokument, die sowohl für den blinden Anwender als auch die KI-Software besonders wichtig ist.

Einige Lösungen unserer Mitglieder unterstützen das sogenannte Auto-Tagging, bei dem das Produkt automatisch so viel Struktur erkennt, wie das mit Software möglich ist. Genauso wie bei OCR können nicht 100 % erreicht werden, aber sehr viele Strukturen wie Tabellen werden gut erkannt und können von der KI besser verarbeitet werden.

Für vorhandene Dokumenten-Bestände in „dummen“ Formaten stehen mit OCR und Auto-Tagging moderne und ausgereifte Technologien zur Verfügung, die es ermöglichen, diese wichtigen Geschäftsinformationen als „Futter“ für KI-Anwendungen aufzubereiten.


ABOUT THE AUTHORS

Thomas Zellmann
Thomas Zellmann

Thomas Zellmann has been working in electronic data processing (EDP) for more than 30 years and has extensive experience with classic and modern IT solutions. Prior to joining LuraTech/Foxit in 2001 he worked for Softmatic AG, Software AG and Nixdorf among others. Zellmann focuses on the banking/insurance and archives/libraries segments. As Managing Director of the PDF Association Thomas coordinates and …

ABOUT THE AUTHORS

Thomas Zellmann

Thomas Zellmann

Thomas Zellmann has been working in electronic data processing (EDP) for more than 30 years and has extensive experience with …

© 2019 Assosiation for Digital Document Standards e.V. | Privacy Policy | Imprint