PDF/A Competence Center Newsletter Ausgabe 21: Mai 2011

PDF/A und seine Bedeutung für die digitale Langzeitarchivierung im Bereich Bibliotheken und Archive

Die Themenübersicht

 


 

 

Hans-Joachim HübnerSehr geehrte Leser,

In diesem Jahr findet vom 07.–10. Juni der 100. Deutsche Bibliothekartag in Berlin statt, das PDF/A Competence Center ist dabei. Mehr als 3.000 Teilnehmer aus öffentlichen, wissenschaftlichen und Unternehmens-Bibliotheken und -Archiven werden erwartet, um aktuelle Fragen der Informations- und Wissensbereitstellung zu beraten und neue Anregungen zurück in ihren Alltag mitzunehmen.

Gleich am ersten Tag wird eine Veranstaltung des Projekts Deutsche Digitale Bibliothek stattfinden. Mit der DDB soll in mehreren Aufbaustufen das verfügbare digitale Angebot von über 30.000 Kultur- und Wissenschaftseinrichtungen vernetzt und über ein gemeinsames nationales Portal der Öffentlichkeit zugänglich gemacht werden und wird in die EUROPEANA (Europäische Digitale Bibliothek) integriert werden.

Dies ein Beispiel dafür, dass die Themen Digitalisierung und die digitale, öffentliche Bereitstellung von Kulturerbe aus Bibliotheken, Archiven und Museen wieder einen breiten Raum einnehmen werden. Seit der Gründung der beiden ersten Kompetenzzentren für Digitalisierung an der NSUB Göttingen und der bayerischen Staatsbibliothek in München im Jahre 1997, ist das digitale Angebot von Kulturgut und wissenschaftlichen Information nachgeradezu explodiert.

War bis in die späten 90er Jahre noch der Mikrofilm das Nonplusultra der Bestandssicherung, so setzt sich das Digitale als geeignetes Mittel der Sicherung von Kulturerbe durch. Dazu kommt, dass immer mehr wichtige kulturelle und wissenschaftliche Information in digitaler Form entsteht und so auch bewahrt und präsentiert werden soll.

Wer digitalisiert und digitale Inhalte anbietet, muss auch über die Frage der langfristigen Archivierung der Digitalisate nachdenken. Und wer langfristig archiviert, muss für die Möglichkeit des langfristigen Zugriffs auf die Digitalisate sorgen. Wer das tut, kommt heutzutage an PDF/A nicht mehr vorbei.

Bei der Bereitstellung von wissenschaftlichen Arbeiten und Dissertationen hat sich PDF/A als bevorzugtes oder auch sogar vorgeschriebenes Format auf breiter Front als Anlieferungsformat – und langfristiges Archivformat – in der deutschen Bibliotheks- und Archivwelt durchgesetzt. Nicht ganz so erfolgreich ist PDF/A bei der Retrodigitalisierung bisher, hier werden häufig noch hochkomplizierte Dateikonglomerate aus Bild- und Metadaten hergestellt, deren Integrität durch Hashwert-Anhänge nachgewiesen werden soll und deren Format häufig vom Betriebsystem abhängig ist.

Dabei liegen die Vorteile der Langzeitarchivierung mit PDF/A sowohl bei ‚digital born’ als auch bei digitalisierten Dokumenten auf der Hand. Aus einem bunten Zoo verschiedenster Dateiformate wird ein einfach zu handhabendes, das auch noch alle zum Digitalisat gehörenden Metadaten enthalten kann.

Dieses Format erfüllt in hohem Umfang die an die digitale Langzeitarchivierung gestellten Anforderungen. Es ist:

  • Geräte- und Betriebssystem-unabhängig – Kann auf unterschiedlichen Systemen und Geräten zuverlässig dargestellt werden
  • Selbst-genügend – Enthält alle zur Darstellung notwendigen Komponenten
  • Selbst-Dokumentierend – Enthält Beschreibungen der integrierten Daten
  • Frei zugänglich – enthält keinen technischen Zugangsschutz
  • Offen gelegt – Autorisierte Formatdefinition vollständig verfügbar
  • Weit verbreitet – Weitflächige Benutzung ist vielleicht der beste Schutz für die Lesbarkeit von Langzeitarchiven

In der deutschsprachigen Bibliotheks- und Archivwelt hat es ca. 20 Jahre gedauert, das Digitalisat als dem Mikrofilm mindestens ebenbürtig wenn nicht überlegen zu akzeptieren. Auch JPEG 2000 als Dateiformat hat lange gebraucht, um in der Praxis anzukommen. Ich bin der festen Überzeugung, dass PDF/A nun mehr oder weniger rasant an Bedeutung für die digitale Langzeitarchivierung und Bestandsbewahrung gewinnen wird.

Apropos Langzeitarchivierung: Das PDF/A Competence Center ist im Laufe des letzten Jahres als Partner bei Nestor, dem deutschen Kompetenznetzwerk zur Langzeitarchivierung aufgenommen worden und ich vertrete das PDF/A Competence Center dort. Das zeigt, dass PDF/A im Bewusstsein wichtiger deutscher Gedächtnis- und Kulturinstitutionen angekommen ist.

Hans-Joachim Hübner
Satz-Rechen-Zentrum (SRZ)


 

Fachthema

PDF/A und seine Bedeutung für die digitale Langzeitarchivierung im Bereich Bibliotheken und Archive

Sprechen wir von digitaler Langzeitarchivierung in diesen Bereichen, so betrifft das heutzutage zwei große Themenkomplexe:

  • Die Präsentation und Bewahrung von digital entstandenen Dokumenten
    • z.B. Dissertationen, Konferenzberichte und immer mehr auch wissenschaftliche Publikationen im allgemeinen im Bereich der wissenschaftlichen und öffentlichen Bibliotheken
    • die Übernahme elektronischer Dokumente und Akten im Bereich der Archive
  • Die Bestandssicherung von digitalisierten Kulturgütern jeglicher Art, wie sie heutzutage in fast allen größeren Bibliotheken nach Digitalisierungsprojekten präsentiert werden und laufend entstehen. Zunehmend kommen hier auch Archive und Museen ins Spiel.

„Digital Born“ und PDF/A

Im Falle der Langzeitsicherung von digital entstandenen Dokumenten hat sich PDF/A inzwischen in breiter Linie durchgesetzt, wie ein Blick auf die Webseiten verschiedener nationaler und internationaler, kulturellen und statlichen Institutionen und Behörden zeigt.

So nennen die Deutsche Nationalbibliothek als auch die Österreichische Nationalbliothek PDF/A als bevorzugtes Anlieferungsformat, die Library of Congress in USA widmet der Information über PDF/A breiten Raum als Format, das deren strenge Vorgaben zur Langzeitarchivierung digitaler Dokumente vollständig erfüllt.

Eigentlich jede wissenschaftliche Bibliothek bietet heutzutage die Möglichkeit, Dissertationen und andere wissenschaftliche Publikationen elektronisch auf ihren Dokumentenservern zu publizieren. Auch hier wird in breiter Front PDF/A als Übergabeformat gefordert, da bei Übernahme auf die Dokumentenserver bereits an die Langzeitsicherung der wissenschaftlichen Information gedacht wird.

Als Beispiele seien hier einige Universitätsbibliotheken (bewusst auch weniger bekannte) genannt: TU Cottbus, Uni Düsseldorf, Uni Marburg, Uni Potsdam, Uni Erfurt, TU Berlin, TU Chemnitz, Uni Weimar, TU München, Uni Duisburg…

Im internationalen Bereich finden wir z.B. die Medizinischen Universitäten Wien und Graz, das Deutsche Historische Institut in Rom sowie die Staatsarchive Luzern und St. Gallen.

Für das Bundesarchiv in Koblenz spielt PDF/A eine immer größere Rolle für die Übernahme von digitalen Unterlagen der verschiedenen Bundesbehörden und deren langfristiger Speicherung. Hier rechnet man in den nächsten Jahren mit einer bedeutenden Steigerung des Aufkommens, da sich die elektronische Bearbeitung der Geschäftsgänge in den Behörden immer stärker durchsetzt.

Diese Tendenz gilt mit Sicherheit auch für die Landes- und Orts-Archive. Bereits 2006 hatte das Landesarchiv Baden-Württemberg festgestellt, dass sich die Anzahl zu übernehmender Dokumente in elektronischer Form häuft und als Richtlinie die Übernahme von PDF im PDF/A-Format beschlossen und war damit ein früher Vorreiter der Langzeitsicherung in diesem erst 2005 verabschiedeten Standard.

PDF/A spielt hier seine einzigartigen Möglichkeiten voll aus, in einem weitverbreiteten und vollständig offengelegten Format alle zu einem Dokument gehörenden Informationen in einer einzigen Datei zu bündeln.

Die Bestandssicherung von digitalisierten Kulturgütern

Viele Kultureinrichtungen wie wissenschaftliche und öffentliche Bibliotheken sowie staatliche, private und kirchlichen Archiven digitalisieren wertvolle Kulturgüter wie Bücher, Drucke und Karten. Dies mit dem Ziel, eine breite, öffentliche oder wissenschaftliche Nutzung zu ermöglichen oder die wertvollen Vorlagen unter möglichst optimalen Umgebungsbedingungen sicher zu bewahren.

Dabei ist der Ansatz, die Digitalisierung in hoher, wenn nicht dem aktuellen technischen Stand entsprechend höchstmöglicher Qualität und Auflösung entsprechend den Leitlinien der DFG durchzuführen.

Vor allem bei besonders wertvollen Vorlagen wird versucht, eine dem Stand der Technik entsprechende höchstmögliche Auflösung zu erreichen, und so mit dem Digitalisat eine sehr breite Palette von Nutzungsmöglichkeiten anbieten zu können. Als Beispiel sei hier das Beethoven-Haus in Bonn genannt. Bei der dort vor Ort durchgeführten Digitalisierung wurde ein besonders hochqualitativer und hochauflösender Aufsicht-Scanner eingesetzt. Die so entstandenen Digitalen Master wurden als unkomprimiertes TIFF abgespeichert und können die Größe von meheren hundert Megabyte umfassen. Sie dienen als Ausgangsformat für Derivate für verschiedene Anwendungs-Zwecke und Auflösungen wie Ausdruck oder Webdarstellung.

Viele Informationen entstehen…

Außer den Bilddaten wird eine ganze Reihe von weiteren Informationen zusammengetragen. Dies beginnt bei den bibliographischen Metadaten, also den beschreibenden Daten zum Dokument wie Autor bzw. Urheber, Erscheinungsort und -datum, Verlag, Drucker, Auflage etc.

Weiter geht es mit inhaltlichen und strukturellen Metadaten. Diese bestehen zum Beispiel aus der Erfassung einer vorhandenen Zusammenfassung oder aus der Erstellung einer solchen. Es ist heute üblich, alle Dokumente, die sich dafür eignen, mit OCR zu bearbeiten und die Ergebnisse unkorrigiert zu speichern. So erhält man die Grundlage dafür, unscharf im Text zu suchen und Suchergebnisse im Faksimile zu markieren.

Strukturelle Metadaten entstehen durch die Erfassung von Inhaltsverzeichnissen und deren Verknüpfung mit den physischen Kapitelanfängen in den Bilddaten oder sonstigen Teilen von Werken wie Register, Orts- und Personenverzeichnissen oder Abbildungen, Bänden und dergleichen mehr.

Es ist üblich, auch die technischen Metadaten zur Entstehung und die physischen Eigenschaften der Digitalisate zu erfassen, um auch hier die Historie der digitalen Dokumente nachweisen zu können. Diese umfassen u.a. Auflösung, Bittiefe, Kompression, Aufnahmedatum, aufnehmende und besitzende Institution, Scansoftware, Scannerhardware und dergleichen mehr.

Alle diese beschreibenden, inhaltlichen und strukturellen Metadaten werden heutzutage in bestimmten XML-Schemen erfasst und gespeichert. Weltweit am meisten verbreitet ist hier der Metadata Encoding and Transmisson Standard (METS) im bibliothekarischen Bereich oder Encoded Archival Description (EAD) in der Welt der Archive.

Verschiedene Speicherformate und echte Farben

Bei den Bilddaten werden üblicherweise verschiedene Komprimierungsverfahren verwendet. Bitonale Bilder werden in der Regel im Format TIFF nach Fax Gruppe IV verlustfrei komprimiert gespeichert. Bei Graustufen und Farbe wird häufig für die digitalen Master meist ebenso TIFF verwendet und unkomprimiert oder nach abgespeichert. Bei den Derivaten zu verschiedenen Verwendungszwecken werden Formate wie JPEG, GIF, PNG und verschieden hohe Auflösungen verwendet.

Mehr und mehr verbreitet sich als Komprimierungsmethode das Anfang dieses Jahrzehnts als ISO Standard verabschiedete JPEG 2000 Format, das wesentlich höhere Komprimierung bei unvergleichlich höherer Qualität zulässt als das traditionelle JPEG. Bei JPEG 2000 steht sogar eine ‚lossless’ Variante zur Verfügung, also eine verlustfreie Komprimierung.

Die Farbaufnahmen von wertvollen Originalen möchte man nicht nur in höchstmöglicher Auflösung archivieren, sondern auch die Farben auf Bildschirm und Ausdruck so reproduzieren können, wie das menschliche Auge sie auf dem Original erkennt. Farbechtheit erreicht man durch Farbmanagement mit Farbprofilen. Die jeweils spezifischen Differenzen von Ausgabegeräten zur Norm wie Drucker und Monitore werden ebenfalls ermittelt und gespeichert und eventuelle Abweichungen können so bei der Ausgabe ausgeglichen werden.

Ein bunter Korb

Fassen wir zusammen, welche Daten bei der Digitalisierung entstehen und bei der Langzeitarchivierung berücksichtigt werden:

  • Digitale Master, Bilddaten in hoher oder höchstmöglicher Qualität, verlustfrei komprimiert oder unkomprimiert
  • Farbprofile bei Farbaufnahmen hoher Qualität
  • Derivate der digitalen Master, die für verschiedene Verwendungszwecke wie Druck, Webdarstellung etc. erstellt werden
  • Beschreibende, technische, inhaltliche und strukturelle Metadaten in verschiedenen XML- und/oder Textformaten

Diese, in unterschiedlichsten Formaten abgespeicherten Daten werden für die Langzeitarchivierung häufig jeweils für eine bibliothekarische oder archivalische Einheit zusammengefasst zu einer datentechnischen Einheit, wie z.B. einem TAR-Archiv, und auf ein geeignetes Archivmedium gebracht.

Um eine spätere Überprüfung der Datenintegrität ermöglichen zu können, wird meist zusätzlich eine Prüfsummendatei, gebildet mit einem geeigneten Prüfsummenalgorithmus, gespeichert und gesichert.

Wir haben es hier mit einem Informationspaket zu tun, das offensichtlich ein ziemlich kompliziertes Gebilde ist, sehr unterschiedliche Formate enthält, 2 Informationseinheiten umfassen muss und nicht unbedingt von jedem TAR-Programm wieder gelesen werden kann, insbesondere in der Windows-Welt.

Wie geht das mit PDF/A?

Im Gegensatz zu allen oben genannten Formaten ist PDF/A komplett offen gelegt und dokumentiert und ein definierter ISO-Standard. PDF/A ist ein ganz normales PDF und kann mit jedem Programm, das PDF darstellen kann, geöffnet und einwandfrei gelesen werden. PDF/A ist unabhängig vom Betriebssystem, da es PDF-Reader für fast jede Betriebsystem-Umgebung gibt.

Wie verhält es sich nun mit dem bunten Korb an Informationen eines Digitalisates, wie vor beschrieben?

  • Bilddaten werden bei Umwandlung in PDF/A in keiner Weise angetastet und behalten sowohl ihre ursprüngliche Qualität, Auflösung und Größe und sind jederzeit wieder herstellbar.
  • PDF/A schreibt zwingend die Speicherung von Information zu verwendeten Farben vor und ist in der Lage, erstellte Farbprofile zu integrieren.
  • Die erstellten Derivate können in die PDF/A-Datei integriert werden. Auch diese bleiben unangetastet.
  • PDF/A hat zwei vollständig dokumentierte und offengelegte Bereiche für Metadaten, der eine sind die Felder der Dokument-Beschreibung (Titel, Verfasser, Thema, Stichwörter). Der andere ist der Bereich der XMP-Daten, der aus XML-Daten besteht und die Möglichkeit bietet, eigendefinierte XML-Beschreibungen in diesen Bereich einzubringen. Alle im bibliothekarischen und archivalischen Umfeld verwendeten XML-Schemas können hier eingebunden werden.
  • Der durch OCR gewonnene Volltext kann durchsuchbar hinter den Text gelegt werden kann, so dass Suchtreffer im Faksimile nutzerfreundlich markiert werden können.

Anwendungsbeispiele für PDF/A-Digitalisate

  • Die Technische Informationsbibliothek Hannover, Retro-Digitalisierung von vom Bundesministerium für Bildung und Forschung geförderte Forschungs-Berichte und deren langfristiger Bereitstellung
  • Die Bibliothek der Eidgenössisschen Technischen Hochschule Zürich mit der Retro-Digitalisierung von Dissertationen ab der No. 1 bis heute
  • Das Deutsche Rundfunk-Archiv mit verschiedenen Projekten wie die Digitalisierung von Unterlagen zu Sendungen des Fernsehens der DDR wie ‚Der Schwarze Kanal’ die ‚Aktuellen Kamera’, die Programmzeitschrift ‚FF Dabei’ und Konstruktionszeichnungen des reichhaltigen Fundus von Fahrzeugen des ‚Sandmännchen’
  • Kataloganreicherung bei TIB Hannover, ETH und ZB Zürich

Fazit

Die Vorteile der Langzeitarchivierung mit PDF/A liegen sowohl bei ‚digital born’ als auch bei digitalisierten Dokumenten auf der Hand. Aus einem bunten Zoo verschiedenster Dateiformate wird ein einfach zu handhabendes, das auch noch alle zum Digitalisat gehörenden Metadaten enthalten kann.

Dieses Format erfüllt mit wenigen Ausnahmen in hohem Umfang alle an die digitale Langzeitarchivierung gestellten Anforderungen. Es ist:

  • Geräte- und Betriebssystem-Unabhängig – Kann auf unterschiedlichen Systemen und Geräten zuverlässig dargestellt werden
  • Selbst-genügend – Enthält alle zur Darstellung notwendigen Komponenten
  • Selbst-Dokumentierend – Enthält Beschreibungen der integrierten Daten
  • Frei zugänglich – enthält keinen technischen Zugangsschutz
  • Offen gelegt – Autorisierte Formatdefinition vollständig verfügbar
  • Weit verbreitet – Weitflächige Benutzung ist vielleicht der beste Schutz für die Lesbarkeit von Langzeitarchiven

PDF/A wird weiterhin an Bedeutung für die digitale Langzeitarchivierung und Bestandsbewahrung gewinnen.

 


 

PDF/A Competence Center Mitglieder Vorstellung

Satz-Rechen-Zentrum (SRZ)

Das Satz-Rechen-Zentrum (SRZ) ist Lösungsanbieter und Dienstleister rund um Enterprise Content Management und spezialisiert auf elektronische Archivierung und digitale Dokumentenerfassung.

Wichtiger Unternehmensschwerpunkt sind eigene oder mit Partnern entwickelte Software-Lösungen für die effiziente Dokumentenerfassung und das Dokumentenmanagement. Neuestes Produkt ist die Software CROSSCAP zum Scannen und optionalen Signieren in einem integrierten Workflow. Die Anwendung ist sehr einfach und intuitiv zu bedienen, die Installation benötigt keinen Server und kann leicht und kostengünstig integriert werden.

Das SRZ bietet mit ProScan V3 eine weitere komfortable Lösung zur Abbildung komplexerer Scan- und Erfassungs-Szenarien bis hin zur automatischen Übergabe an ECM-Systeme. Diese kann weitgehend für viele Anforderungen ohne weitere Anpasssungen konfiguriert werden.

Alle Erfassungs-Lösungen des SRZ unterstützen die Ausgabe von PDF/A, ob durchsuchbar mit hinterlegtem Text oder als reines Faksimile-PDF.

Die Lösungen entstehen beim SRZ aus langjähriger, eigener Praxis: Seit 1986 werden erfolgreich Scan- und Erfassungsdienstleistungen für die Massenbelegerfassung, das Buch- und Großformatscannen und die Digitalisierung von Mikrofilm angeboten und eigene Software dafür entwickelt.

Das Kundenspektrum ist weit gestreut und reicht vom Handel über die Wohnungswirtschaft, Industrie, Pharmahersteller und Finanzdienstleister über den öffentlichen Bereich bis hin zu Bibliotheken und Archiven.

Das 1969 gegründete Satz-Rechen-Zentrum besitzt eine langjährige, fundierte Erfahrung aus vielen erfolgreichen Projekten auch im Bereich des Gründungsschwerpunktes Crossmedia Publishing. Das Unternehmen beschäftigt 90 Mitarbeiter und verfügt über zwei Dienstleistungsstandorte in Berlin sowie Vertriebsstützpunkte in Frankfurt/M und Stuttgart.

www.srz.de, www.crosscap.de, www.pdfkorrektor.de


 

Events

17.–18. Mai 2011: LegalTech West Coast 2011 in Los Angeles

LegalTech ist in der USA einer der größten Technologie-Events des Jahres mit der großartigen Möglichkeit, PDF/A zu fördern. Zahlreiche Mitglieder des PDF/A Competence Center werden auf der LegalTech ausstellen (Stand 225).

www.legaltechshow.com

25.– 28. Mai 2011: Cairo ICT 2011

Das PDF/A Competence Center Mitglied InfoFort wird auf der Cairo ICT 2011 Lösungen rund um PDF/A präsentieren (Stand 4C9).

www.cairoict.com

07.–10. 06. 2011: 100. Deutscher Bibliothekartag in Berlin

Das PDF/A Competence Center wird einen Gemeinschaftsstand mit unserem Mitglied SRZ auf dem Deutschen Bibliothekartag vom 7. bis 10. Juni 2011 vertreten sein.

Weitere Informationen zum Event finden Sie unter www.bibliothekartag2011.de

 


 

Neue Mitglieder im PDF/A Competence Center

Wir begrüßen die führenden Unternehmen der Branche als Mitglied im PDF/A Competence Center:

  • Anish Kurup, Dubai

 


 

Über das PDF/A Competence Center

Das PDF/A Competence Center wurde 2006 als internationaler Verband gegründet. Ziel des Verbandes ist die Förderung des Informations- und Erfahrungsaustausches auf dem Gebiet der Langzeitarchivierung gemäß ISO 19005: PDF/A. Der Vorstand setzt sich aus Führungskräften der Unternehmen Appligent Document Solutions Inc., callas software GmbH, Compart AG, Crawford Technologies Inc., intarsys consulting GmbH und LuraTech Europe GmbH zusammen. Innerhalb von weniger als zwei Jahren traten über 100 Unternehmen und diverse Experten aus mehr als 20 Ländern dem PDF/A Competence Center als Mitglieder bei. Vorstandsvorsitzender ist Olaf Drümmer, Geschäftsführer der callas software GmbH. Duff Johnson, CEO der Appligent Document Solutions, ist stellvertretender Vorstandsvorsitzender.

Kontakt

Association for Digital Document Standards e.V.

PDF/A Competence Center
Thomas Zellmann
Neue Kantstr. 14
D-14057 Berlin

Telefon: +49 30 394050-50

info@pdfa.org
www.pdfa.org

About PDF Association

Founded in 2006 as the PDF/A Competence Center, the PDF Association exists to promote the adoption and implementation of International Standards for PDF technology.

Hinterlasse eine Antwort