PDF/A für gescannte Dokumente

Die Themen in der Übersicht:

Analog wird digital

Möglichkeiten der Volltextsuche in PDF/A
Verbesserte Kompression in PDF/A
PDF/A – Anwendungsbeispiele

PDF/A stammt nicht ausschließlich aus digitalen Quellen, ein großer Anteil wird über eingescannte Papierdokumente erstellt, etwa beim Posteingang oder wenn Akten digitalisiert werden. Hier hat ein Unternehmen keinen Zugriff auf die Originaldateien und muss Papier in elektronische Dokumente wandeln. PDF/A ist anderen elektronischen Formaten vorzuziehen, denn PDF/A ist ein ISO-Standard und bietet als Zielformat eine Reihe an Vorteilen für die Archivierung und Weiterverwertung der Inhalte.

Analog wird digital

Die Digitalisierung von Papiervorlagen (Briefe, Akten, Rechnungen, Fotografien und vieles mehr) ist seit Jahren in vielen Unternehmen und Institutionen Tagesgeschäft. Dabei sind verschiedene Verfahren für die unterschiedlichen Einsatzzwecke gebräuchlich.

Bisherige Lösungen für gescannte Dokumente

Für Vorlagen, die ausschließlich in Schwarzweiß existieren wie zum Beispiel Rechnungen, wurde und wird häufig das Format TIFF G4 verwendet (eine Entwicklung für die Fax-Übertragung). Liegen Originale vor, die Farbe enthalten, so werden die Bildformate JPEG – Seltener PNG, BMP und andere Grafikformate – eingesetzt. Vielfach werden auch Sonderformate wie „JPEG in TIFF” favorisiert, etwa um die Dateigröße zu minimieren oder Multipage-Dateien zu erhalten.

Nachteile:

Der Weg über diese älteren Verfahren birgt eine Reihe von Nachteilen im Vergleich zur Digitalisierung im PDF/A-Format. Wer heute noch mit diesen älteren Formaten arbeitet, wird sich mit folgenden Problemen konfrontiert sehen:

  • Formatvielfalt: Weil für unterschiedliche Aufgaben verschiedene Dateiformate notwendig sind, liegt kein einheitliches Format für die gescannten Dokumente vor. Der Nutzer muss dann unter Umständen für jedes Format einen eignen Viewer verwenden, wobei jedes Anzeige­programm in der Regel wieder anders zu bedienen ist. Für PDF und PDF/A muss nur ein Viewer im Zugriff sein, der Adobe Reader beispielsweise ist sogar kostenlos verfügbar.
  • Informationsverluste: PDF/A ist in der Lage, Inhalte eins-zu-eins zu übernehmen. Andere, ältere Dateiformate bedeuten den Verlust von Detailinformationen, zum Beispiel bei TIFF G4, das Inhalte nur in Schwarzweiß abbilden kann.
  • Bildqualität vs. Dateigröße: Häufig steht der Anwender bei der Verwendung von Bilddateiformaten vor der Entscheidung, ob er als Nachteil eine schlechte Qualität oder große Dateien akzeptiert, etwa bei JPEG, das eine Größenreduzierung nur mit einer gröberen Qualität liefern kann. Dieser Nachteil ist bei der Darstellung von Text besonders schwerwiegend, weil hier die Lesbarkeit gefährdet ist.

 

Dateigröße versus Darstellungsqualität: Die Detailaufnahmen stammen aus einer Seite im DIN-A4-Format, die Dateigrößen beziehen sich ebenfalls auf DIN A4 mit einer Auflösung von 300 dpi.

Dateigröße versus Darstellungsqualität: Die Detailaufnahmen stammen aus einer Seite im DIN-A4-Format, die Dateigrößen beziehen sich ebenfalls auf DIN A4 mit einer Auflösung von 300 dpi.

  • Irrtum Revisionssicherheit von TIFF: Die weit verbreitete Meinung, nach der es genüge Dokumente und Daten in TIFF abzulegen, um revisionssicher vorzugehen, ist falsch. Jedes Format ist manipulierbar und insbesondere das TIFF-Format kann leicht verändert werden. Archivformate können nur im Gesamtzusammenhang eine revisionssichere Lösung bilden, wobei die umgebenden Systeme, wie ein DMS aber auch eine Finanzbuchhaltung für die Revisionssicherheit zu sorgen haben.
  • Uneinheitliche Metadaten: Umfasst das Dateiarchiv viele Dokumente in unterschiedlichen Formaten, so sind auch keine standardisierten Metadaten über alle Formate möglich. Jedes Dateiformat baut hier unter Umständen auf seine eigenen, proprietäre Lösung auf, so dass eine Vereinheitlichung nicht zu realisieren ist. PDF/A liefert ein einheitliches Metadatensystem. Der Standard XMP (Extensible Metadata Platform) bindet die Zusatzinformationen direkt in die PDF-Datei ein, so dass diese immer zugänglich sind. So lassen sich Angaben zu Autor, Zugriffsrechten, Stichwörtern und Copyright jederzeit direkt und ohne Datenbank abrufen.
  • Volltextsuche: Die meisten Bildformate bieten keine Texterkennung (OCR) auf Dateibasis und somit keine Volltextsuche, wie es PDF erlaubt.
  • Aufwändigere Recherche:Bildformate ermöglichen eine Recherche nur über Datenbanken, und nicht auf Dateiebene. Beispiel: Gesucht wird die Personalakte zu „Max Muster”. Die Datenbank kann ohne weiteres alle Dokumente lokalisieren, in denen die Person genannt wird, aber nicht die exakte Fundstelle auf der richtigen Seite anzeigen, was gerade bei umfangreichen Dokumenten sehr zeit- und somit kostenintensiv sein kann.

Alternative PDF

Mit PDF steht eine moderne, standardisierte Alternative bereit. Der Weg einer Digitalisierung nach PDF wird schon häufig gegangen, etwa um eine Formatvereinheitlichung (Image2PDF) oder um eine Volltextfähigkeit zu erreichen. PDF erlaubt auch die Nutzung neuerer, leistungsfähigerer Kompressionsschemata (etwa aus dem Bereich JPEG2000). Viele Anwender sind auf PDF umgestiegen, um eine Vereinheitlichung der Metadaten zu erreichen.

PDF kann alle Nachteile der älteren Formate beheben. Doch das herkömmliche PDF-Format ist nicht für alle Einsatzgebiete die optimale Wahl.

Wenn PDF – dann gleich PDF/A

Wenn man sich im Archivumfeld für PDF als Format entscheidet, dann wählt man vorzugsweise PDF/A, da es das einzige Format ist, das als ISO-Standard für die Langzeitarchivierung entwickelt wurde.

Möglichkeiten der Volltextsuche in PDF/A

PDF bietet die Durchsuchbarkeit von Text auf Dateiebene. Dies erhöht in vielen Einsatzbereichen den Nutzen:

  • Elektronische Bibliothek, „nach dem Download”.
  • Handbücher, Konstruktionsunterlagen oder Bauakten im Archiv im Rahmen der Produkthaftung.
  • Dokumente, die zum zum Kunden, Steuerberater oder Rechtsanwalt gesendet werden.

 

Textsuche in einer PDF-Datei, hier zum Beispiel in einem Grundbuch.

Textsuche in einer PDF-Datei, hier zum Beispiel in einem Grundbuch.

Verbesserte Kompression in PDF/A

Bei Belegen in Schwarzweiß

Mehr und mehr Kunden, die Vorlagen in Schwarzweiß verarbeiten, erkennen die Vorteile, die PDF/A bietet.

Bei Belegen, die in Schwarzweiß vorliegen, ist das Kompressionsverfahren JBIG2 (Standard nach ISO/IEC 14492) besonders effektiv. Diese Kompression positioniert sich „statt TIFF G4”. JBIG2 erlaubt die Wahl zwischen verlustfreier und verlustbehafteter Kompression. Die bislang wenig bekannte Technologie ist in PDF/A-1 implementiert und im Adobe Reader verfügbar.

 

Das Kompressionsverfahren JBIG2 verringert bei bester Textqualität die Dateigrößen signifikant (die Werte beziehen sich auf eine gescannte DIN A4 Seite in 300 dpi).

Das Kompressionsverfahren JBIG2 verringert bei bester Textqualität die Dateigrößen signifikant (die Werte beziehen sich auf eine gescannteDIN A4 Seite in 300 dpi).

Bei farbigen Belegen

Farbe ist ein wichtiger Informationsträger. Farbe kommt inhaltliche und semantische Bedeutung zu. Die Verarbeitung von farbigen Vorlagen steigert die Produktivität der Mitarbeiter und das Unternehmen kann auf diesem Weg die Kosten senken.

Eine von Kodak initiierte Studie zeigt, dass Mitarbeiter besser mit farbigen Dokumenten arbeiten, denn Farbe sorgt für:

  • ein um 14% besseres Verständnis der Dokumente
  • eine um 70% schnellere Entscheidungsfähigkeit
  • eine Verbesserung der Lesegenauigkeit von 80%

 

Farbe erleichtert den Mitarbeitern das Verständnis von Inhalten. Viele farbige Vorlagen büßen in der SW-Verarbeitung sogar entscheidende Details ein, etwa bei farbig markiertem Text, der in Schwarzweiß-Scan unleserlich wird.

Farbe erleichtert den Mitarbeitern das Verständnis von Inhalten. Viele farbige Vorlagen büßen in der SW-Verarbeitung sogar entscheidende Details ein, etwa bei farbig markiertem Text, der in Schwarzweiß-Scan unleserlich wird.

Werden sämtliche Vorlagen in Farbe eingescannt und nicht nach Farbe und Schwarzweiß getrennt, so ergibt sich daraus ein erheblich geringerer Vorsortierungsaufwand (was etwa 75% der Kosten ausmacht). Es sind auf diesem Weg auch keine veränderten Scannereinstellungen oder Rescans der gleichen Datei notwendig.

Bei farbigen Belegen kann eine leistungsfähige Kompression der Bilddaten die Dateigrößen um ein erhebliches Maß minimieren. Die MRC-Kompression, auch bekannt aus JPEG2000 (JPM) kann Dateigrößen entscheidend verringern, ohne dass die Darstellungsqualität sichtbar sinken würde.

Das Unternehmen LuraTech verwendet bei seinen Scan-zu-PDF/A Lösungen ein Verfahren, dass die Frage der Dateigrößenreduzierung effizient löst. Durch eine Unterteilung des Dokuments in drei Ebenen, die unabhängig voneinander kodiert werden, werden Text, Farbe und Bilder getrennt komprimiert.

 

Das LuraTech Ebenen-Verfahren vereint eine klare Darstellung von farbigen Bildern und Texten mit einer besonders geringen Dateigröße.

Das LuraTech Ebenen-Verfahren vereint eine klare Darstellung von farbigen Bildern und Texten mit einer besonders geringen Dateigröße.

Die Drei-Ebenen-Technologie erreicht eine optimale Qualität, indem beim Scan eine umkomprimiertes Original digitalisiert wird, das die Inhalte über moderne MRC-Verfahren in Ebenen für Text, Bild und Farbe zerlegt.

PDF/A Anwendungsbeispiele

Drei Case Studies zeigen, welche Vorteile das Digitalisieren von Vorlagen in PDF/A in den Bereichen Personalakten, Knowledgebase und Kreditakten bringt.

PDF/A für Personalakten in einem Dienstleistungsunternehmen

Das Unternehmen, das wir hier vorstellen stammt aus dem Bereich Dienstleistungen und generiert einen Umsatz von weltweit 7,1 Mrd. €; in Deutschland allein von 420 Mio. €. Weltweit beschäftigt das Unternehmen 220.000, in Deutschland 14.500 Mitarbeiter.

Das Projekt

Die Aufgabenstellung umfasst folgende Punkte: 14.000 Personalakten, mit einen Umfang von etwa 150 Seiten sollen digitalisiert werden, was effektiv ein Verarbeitungsvolumen von 2 Mio. Seiten bedeutet. Die Dokumente müssen für 200 berechtigte Mitarbeiter verfügbar gemacht werden, ein direkter Zugriff ist an 70 Standorten vorgesehen. Die Papierdokumente liegen sowohl in Schwarzweiß, in Graustufen als auch in Farbe vor. Die Lösung bietet eine Konvertierung der Originale in das PDF-Format im zukunftssicheren ISO Standard PDF/A, wobei eine effektive Kompression für möglichst geringe Dateigrößen sorgt. Über den Verarbeitungsschritt OCR (Optical Character Recognition/Texterkennung) wird der gescannte Text für die Volltextsuche aufbereitet.

Die Ergebnisse

Die einheitliche Wandlung in PDF/A-Dokumente erlaubt die sichere Aufbewahrung aller Personalakten in digitaler Form. Der ISO-Standard PDF/A garantiert die Eignung der Daten für die Langzeitarchivierung. Die Nutzung der Daten wird erheblich erleichtert, da die Mitarbeiter im Volltext durchsuchbare PDF Dateien an die Hand bekommen. Die elektronische Suche ersetzt die visuelle Suche, was zu einer erhöhten Treffergenauigkeit führt, bei gleichzeitiger Zeitersparnis. Die Wahl des Formats PDF/A führt zu bis zu 60% kleineren Dateien als es bei der Verwendung von TIFF oder JPEG möglich wäre. Die geringeren Dateigrößen führen nicht zuletzt zu einer wesentlich geringeren Netzlast und erlauben einen unmittelbaren Zugriff auf die Daten.

Die Vorteile auf einen Blick:

  • Sichere Datenaufbewahrung über Jahrzehnte
  • Im Volltext durchsuchbare PDF Dateien
  • geringe Dateigrößen (Ersparnis um bis zu 60%)
  • geringere Netzlast und schneller Zugriff

DAK: Migration der Knowledgebase nach PDF/A

Der DAK INFO-Dienste sollte ein einheitlicher Form digitalisiert werden. Die DAK ist die zweitgrößte Ersatzkasse in Deutschland mit 6,2 Mio. Versicherten und 12.000 Mitarbeitern, die in 750 Geschäftsstellen tätig sind.

Das Projekt

Das interne Informationsarchiv mit einem Umfang von rund 300.000 Textseiten lag vor der Migration in Form von Bilddateien vor, meist im Format TIFF, neuere Zugänge als herkömmliches PDF. Die ursprünglich auf Mikrofilm abgelegten Informationen waren in Teilen bereits digitalisiert, jedoch in uneinheitlichen Formaten, wobei TIFF weder besonders platzsparend ist noch über Optionen für die Volltextsuche verfügt. Das Archiv wächst stetig an, etwa 3.000 Texte jährlich kommen dazu, wobei die Dateien einen Umfang von 50 oder mehr Seiten haben können. Das Ziel war also eine Vereinheitlichung des Archivs, bei möglichst geringem Dateivolumen und mit einer Möglichkeit für die digitale Recherche in den Daten.

Um die Möglichkeiten des Info-Dienstes zu optimieren und zukunftssicher zu machen, hatte sich die DAK entschlossen, die Knowledgebase in Form von PDF/A zu archivieren. Für die Migration setzte die DAK PDF/A-Lösungen von LuraTech ein. Die DAK konnte in diesem Startprojekt frühzeitig Erfahrungen mit dem neuen PDF/A Format sammeln, die in weitere Projekte einfließen werden.

Die Ergebnisse

Die Mitarbeiter des DAK INFO-Dienstes können jetzt von der komfortablen und schnellen Volltextrecherche profitieren. Durch die geringeren Dateigrößen lässt sich der Zugriff auf die Informationen schneller realisieren. Es muss nur noch ein Anzeigeprogramm auf den Rechnern installiert sein, bei der DAK ist dies der Adobe Reader, der kostenlos über das Internet heruntergeladen werden kann. Die Daten sind dank PDF/A geeignet für die Langzeitarchivierung gemäß ISO-Standard. Und nicht zuletzt konnte die DAK mit diesem Referenzprojekt praktische Erfahrungen für weitere Datenarchivierungen mit PDF/A sammeln.

Die Vorteile auf einen Blick:

  • Schnell im Volltext durchsuchbare Dateien
  • Speicherplatz eingespart
  • Schneller komfortabler Zugriff für die Anwender
  • Langfristige Lesbarkeit
  • Nur ein Viewer notwendig (Adobe Reader)
  • Praktische Erfahrungen mit PDF/A

PDF/A für das dezentrale Scannen von Kreditakten

In Tennessee, der Zentrale eines amerikanischen Finanzunternehmens, werden beim „Check into Cash” Verfahren die Belege digitalisiert und als PDF/A im Datenarchiv abgelegt. Der Finanzdienstleister unterhält 1.200 „advance centers” in 30 US-Staaten.

Das Projekt

Der Anbieter legte die Zielvorgaben fest, die ein dezentrales Scannen der Kreditakten vorsehen. Die Dokumente sollten durchgehend in Farbe verarbeitet werden. Nicht zuletzt sollte die Umstellung auf ein neues System auch die Übertragung der Daten zur Zentrale verbessern.

Die Ergebnisse für das Center:

Durch den Einsatz des LuraDocument PDF Compressors, der aus Papierseiten per Scan und Datenkonvertierung PDF/A erstellt, erreichen die Center eine schnelle Datenübertragung. Die Dokumente können vollständig in Farbe vorliegen. Das bedeutet, dass vor dem Digitalisieren kein Sortieren nach Farbe oder Schwarzweiß in den Centern vorgenommen werden muss, womit eine erhebliche Einsparung von Verarbeitungszeit erreicht werden kann.

Die Ergebnisse für die Zentrale

Die Zentrale, welche die PDF/A-Dokumente aufbewahrt, spart Speicherplatz ein, da die moderne Datenkompression zu deutlich geringeren Dateigrößen führt. Weniger Dateivolumen bedeutet auch, dass die Leitungskosten spürbar reduziert werden können. Und nicht zuletzt erhält die Unternehmenszentrale die Vorteile einer langfristigen Lesbarkeit der Daten und eine sichere Archivierung gemäß ISO-Standard.

Die Vorteile auf einen Blick:

  • Vorsortierung der Vorlagen nach Farbe/Schwarzweiß entfällt
  • Alle Kreditakten werden in einem Vorgang eingelesen
  • Dateigrößen werden reduziert
  • Schnellere Datenübertragung
  • Sichere Langzeitarchivierung der Kreditakten

Fazit: PDF/A ist die erste Wahl

PDF/A ist „das” Format für gescannte Vorlagen. Es lässt sich ohne große technische Hürden in jedes Unternehmen und jede Institution implementieren. Wer heute damit beginnt, Papiervorlagen zu digitalisieren, der sollte sich gleich für die moderne, standardisierte Lösung PDF/A entscheiden. In einem Umfeld, das bislang andere Formate nutzt, um gescannte Papiervorlagen zu archivieren, bieten sich klar definierte, übersichtliche Projekte an, um die Vorteile von PDF/A zu erleben und praxisrelevante Erfahrungen zu sammeln.

Carsten Heiermann, LuraTech/aoe

About LuraTech Europe GmbH

LuraTech liefert Produktionssoftware und Dokumenten- und Daten-Konvertierungslösungen begleitet von maßgeschneiderten Services und herausragendem Support.