PDF/A Metadaten XMP, RDF & Dublin Core

Was sind Metadaten?

„Daten über Daten“

Metadaten sind Daten über Daten. Diese beschreiben den Inhalt, die Beschaffenheit, die Bedingungen und andere Charakteristika von Daten. Die Bezeichnung „Metadaten” wurde von Jack Myers in 1960er Jahren geprägt.

Metadaten sind überall

Metadaten helfen uns dabei, die Welt um uns herum zu verstehen. Ohne sie ist man verloren. Metadaten existieren auch unabhängig von Computern, etwa auf Plänen oder Landkarten.

 

Ein einfaches Beispiel für Metadaten auf einer Landkarte.

Ein einfaches Beispiel für Metadaten auf einer Landkarte.

Warum Metadaten?

Es gibt viele Gründe dafür, Metadaten zu nutzen. Unternehmen können davon profitieren, wenn sie beim Aufbau und der Pflege ihrer Datenbestände Metadaten verwenden. Wird gleich bei der Datenerfassung Zeit in die intelligente Verwaltung der Dokumentdaten investiert, so macht sich der anfängliche Mehraufwand auf lange Sicht gesehen bezahlt.

Im späteren Ablauf kann etwa die Abrechnungsstelle auf die Metadaten zurückgreifen oder der Datenversand wird vereinfacht. Auch Suchvorgänge lassen sich wesentlich verbessern, wenn dabei vereinheitliche Begrifflichkeiten genutzt werden.

Einsatzgebiete für Metadaten

Metadaten helfen in verschiedenen Bereichen, die Übersicht und die Datenhandhabung zu optimieren. Dazu zählen zum Beispiel:

Identifizierung

  • Titel
  • Abgedeckter Bereich
  • Themen
  • Verursacher
  • Herkunft – wo kommen die Daten her?

Vertrieb, Verteilung

  • Lieferant
  • Formate
  • Medien
  • Online
  • Preis

Informationen zu Datensatz und Eigenschaften

  • Funktionen und Merkmale
  • Eigenschaften
  • Werte der Eigenschaften
  • und vieles weitere mehr…

Vorteile für interne Daten

Innerhalb eines Unternehmens/einer Behörde minimieren Metadaten den Arbeitszeitaufwand bei vielen Aufgaben. So können Mitarbeiter schneller die gewünschten Datensätze lokalisieren und müssen nicht an anderen Orten nach zusätzlicher Information zu bestimmten Daten suchen. Bei Personalfluktuation wird ein sonst möglicher Verlust von Informationen vermieden. Über Metadaten stehen viele Automatisierungsmöglichkeiten offen, die ohne diese Zusatzdaten nicht realisierbar sind. Eine weitere Zeitersparnis ergibt sich dadurch, dass sich Datensatz-Doubletten innerhalb des Betriebs vermeiden lassen.

Vorteile für externe Daten

Korrekte Metadaten erleichtern die Eingabe von Vorgängen an die Rechnungsstelle. Ein „mehr” an Metadaten bedeutet auch, dass mehr Leute Nutzen aus diesen Daten ziehen können. Hier ist eine Zeitersparnis möglich, weil Datensatz-Doubletten in verschiedenen Niederlassungen vermieden werden können.

Metadaten in PDF

Wie werden nun Metadaten in PDF organisiert? In Adobe Acrobat kann man die Metadaten über die „Dokumenteigenschaften” einsehen und verändern.

Info Dictionary

Der Bereich Info Dictionary ist Bestandteil von PDF bereits seit der PDF-Version 1.0. Dieser Bereich gehört zum Dokument selbst und enthält eine Sammlung von Paaren zu Bezeichnungen und Werten (Name/Value Pairs). Zu den vordefinierten Paaren zählen die Werte TitelVerfasser,ThemaStichwörter und weitere. Es sind auch eigene Werte möglich.

 

Die Dokumenteigenschaften in Adobe Acrobat.

Die Dokumenteigenschaften in Adobe Acrobat.

PieceInfo Dictionary

Mit PDF 1.3 (Acrobat 4) wurde auch das PieceInfo Dictionary eingeführt. Dieses Verzeichnis ist entweder dokument- oder seitenbezogen. Die Rubrik Application Private Data wird von Adobe Photoshop und Adobe Illustrator genutzt.

XMP (Extensible Metadata Platform)

Eine neuere Entwicklung ist XMP; eingeführt mit PDF 1.4 (Acrobat 5). XMP basiert auf RDF (Resource Definition Framework). RDF ist ein W3C Standard für XML-basierte Metadaten (weitere Informationen www.w3.org/RDF). XMP kann mit XObjects auf Dokumentseiten verbunden sein (auch bekannt als „Images & Repeating Objects” = Bilder und wiederkehrende Objekte). Zudem kann XMP mit Schriften und ICC-Profilen verknüpft sein.

Object Data (aka User Properties = anwenderbezogene Eigenschaften)

Object Data wurde mit Acrobat 7 eingeführt und basiert auf PDF 1.6. Dieser Bereich ist verknüpft mit individuellen Inhaltselementen. DieName/Value Pairs können über Zeichenketten, Ziffern oder logische Verknüpfungen realisiert werden.

Ein Beispiel für Object Data.

Ein Beispiel für Object Data.

Measurement Properties (Maßeigenschaften)

Ebenfalls seit PDF 1.6 sind Maßeigenschaften möglich. Diese Eigenschaften sind seitenbezogen und liefern Informationen über Größen und Maßeinheiten. Hiermit lassen sich PDF-Einheiten mit Einheiten aus der realen Welt verknüpfen; etwa 1 cm entspricht 1 km.

 

Maßeigenschaften gibt es seit PDF 1.6.

Maßeigenschaften gibt es seit PDF 1.6.

Alles über XMP

XMP Logo

XMP im Überblick

XMP (Extensible Metadata Platform) ermöglicht, dass Metadaten in allen relevanten Adobe-Applikationen (aber nicht nur dort) nach einem einheitlichen Schema integriert werden.

EXtensible (Erweiterbar)

  • Neue Metadaten-Eigenschaften lassen sich einfach hinzufügen.
  • Erweitert die Bedienoberfläche der Creative Suite Programme.
  • XMP wird von mehr als 30 großen Herstellern von Asset-Management-Lösungen unterstützt.

Metadata

  • Daten über Daten.
  • XML basiert auf dem W3C-Standard für das Metadaten-Encoding (RDF).
  • Erstellt „smart assets”, indem XML Metadaten in binäre Dateien eingefügt werden.
  • Dateiformat-neutral, etwa JPEG, TIFF, EPS, PDF, Adobe-native-Formate.
  • Metadaten Schema ist neutral (anpassbar).

Platform

  • Läuft in allen Adobe Creative Suite Produkten.
  • Basiert auf W3C Industrie-Standards.
  • Kostenlos verfügbar über Open Source.
  • Intelligente Lösung, sie ist für automatisierte Workflows geeignet, womit sich die Produktivität steigern lässt.

XMP Vorzüge


Bereich Business Bereich Technik
Fördert intelligente Medien Fördert Wieder- und Neuverwendung von Inhalten über Bereiche hinaus. Fördert den Markenwert, das Wissenskapital sowie andere immaterielle Werte. Selbst-beschreibend Keine Beschränkung auf ein bestimmtes Schema. Jede Datei kann mit Metadaten ausgestattet werden.
Offene Plattform Ermöglicht die Erfassung, Erhaltung und Ausbreitung von Metadaten, unabhängig von Geräten, Programmen, Dateiformaten, Institutionen. Zugänglich (Accessibility) Basiert auf Industrie-Standards (W3C). Frei verfügbar. Erweitert Metadaten über die Grenzen von Datenbanken hinaus.
Intelligente Medien, basierend auf XMP

XMP-Schlüsselelemente

  • Framework: XML Struktur für die Ablage von Informationen.
  • Datenpaket: Wie und wo werden Informationen gelagert und abgerufen?
  • Spezifikation: Beschreibung des Standards und das Verhältnis zu anderen Standards.
  • Entwickler-Tool (SDK): Ist kostenlos verfügbar, Open Source.
  • Anpassbare Felder: Bedienoberfläche für Anwenderinteraktion mit Metadaten.
  • Plattform: Adobe-CS-weiter, standardisierter Zugang zu Metadaten.

Ein genauerer Blick auf XMP

XMP basiert auf W3C Standards. Das Adobe Metadaten-Gerüst ist die erste große, umfassende praktische Anwendung von RDF (Resource Description Format). Die Elemente der Adobe-XMP-Plattform umfassen:

  • XMP Framework: RDF Framework oder wiedergebende Metadaten aus mehrfachen Schemas.
  • XMP Schema: Schema für die Beschreibung von Eigenschaften, enthalten in Namensräumen (namespaces).
  • XMP Datenpakettechnologie: Methode für die Einbettung von XML-Fragmenten in Binärcode.
  • XMP SDK: Unterstützung für Dritthersteller-Lösungen (Oberfläche und Erweiterungen).

XMP Schema

RDF spezifiziert Kennungen in Abfolgen von XML, strukturiert in QuelleEigenschaftWert (oder alternativ Subjekt, Prädikat, Objekt). RDF Schemas legen das Vokabular fest. Adobe hat die Standard XMP Schemas entworfen. Das XMP Framework erlaubt die Einbindung beliebiger Schemas, vorausgesetzt sie sind gemäß Spezifikation aufgebaut. Bereichsspezifische Schemas (etwa IPTC oder NewsML) können innerhalb der XMP-Datenpakete beschrieben werden.

Ein Beispiel für ein XMP Schema für Video.

Schemas im Überblick: XMP, Adobe PDF, Dublin Core

XMP Basis-Schema


Eigenschaft Wert Kategorie Beschreibung
xmp:CreateDate Date Intern Datum und Uhrzeit für die Erstellung der ursprünglichen Quelle.
xmp:CreatorTool AgentName Intern Der Name des ersten bekannten Werkzeugs, das benutzt wurde, um die Quelle zu erstellen. Falls in den Metadaten eine History vorliegt, sollte dieser Wert mit der Eigenschaft softwareAgent inxmpMM:History übereinstimmen.
xmp:MetadataDate Date Intern Datum und Uhrzeit, zu der irgendein Metadaten-Eintrag zuletzt geändert wurde. Der Eintrag sollte gleich oder neuer sein als xmp:ModifyDate.
xmp:ModifyDate Date Intern Datum und Uhrzeit, als die Quelle zuletzt geändert wurde.
Achtung: Der Wert dieser Eigenschaft ist nicht notwendigerweise der gleiche wie das Änderungsdatum des Dateisystems, weil er bereits gesetzt wird, bevor die Datei gespeichert wird.

Das XMP Grundschema liefert Eigenschaften, die grundsätzliche, beschreibende Informationen bereitstellen.

  • Der Schema Namespace URI (URI = Uniform Resource Identifier) ist ns.adobe.com/xmp/1.0/
  • Das bevorzugte Namensraum-Präfix des Schemas lautet xmp.

Adobe PDF Schema


Eigenschaft Wert Kategorie Beschreibung
pdf:Keywords Text Extern Stichworte.
pdf:PDFVersion Text Intern Die PDF-Version (zum Beispiel 1.0, 1.3, und so weiter).
pdf:Producer AgentName Intern Der Name des Werkzeugs, welches das PDF-Dokument erstellt hat.

Das Adobe-PDF-Schema stellt ein Set von Eigenschaften bereit, die in Adobe-PDF-Dokumenten verwendet werden.

  • Der Schema Namespace URI ist ns.adobe.com/pdf/1.3/
  • Das bevorzugte Namensraum-Präfix des Schemas lautet pdf

Die Dublin Core Metadata Initiative (http://dublincore.org)

Das Dublin Core Metadaten Element Set (auch bekannt als Dublin Core) ist ein Vokabular mit fünfzehn Eigenschaften, welche die Eigenschaften der Quelle beschreiben. Dublin Core ist Teil eines größeren Satzes, bestehend aus Metadaten-Vokabular und technischen Spezifikationen, die von der Dublin Core Metadata Initiative (DCMI) betreut werden.

Der komplette Satz der Vokabelverzeichnisse, DCMI Metadata Terms [DCMI-TERMS], beinhalten zudem einen Satz von Quellen-Kategorien (resource classes), das DCMI Type Vocabulary [DCMI-TYPE].

Es ist beabsichtigt, dass die Bedingungen in den DCMI-Vokabelverzeichnissen in Verbindung mit anderen, kompatiblen Vokabelverzeichnissen eingesetzt werden; und zwar im Zusammenhang mit Anwendungsprofilen und auf der Basis des DCMI Abstract Models [DCAM].

Der Name „Dublin” hat seinen Ursprung in einem Workshop, der 1995 in Dublin, Ohio stattfand. Der Begriff „Core” = „Kernbereich” kommt daher, dass die Bestandteile des Sets umfassende Oberbegriffe darstellen, die geeignet sind, einen umfassenden Bestand an Quellen zu beschreiben.

Dublin Core (dc) Schema


Eigenschaft Wert Kategorie Beschreibung
dc:contributor bag ProperName Extern Beitragende zur Quelle (zusätzlich zum Autor).
dc:coverage Text Extern Ausmaß oder Bereich der Quelle.
dc:creator seq ProperName Extern Die Autoren der Quelle (sortiert nach Rangfolge, falls von Bedeutung).
dc:date seq Date Extern Datumsangabe(n) für wichtige Ereignisse, die mit der Quelle zusammenhängen.
dc:description Lang Alt Extern Eine Textbeschreibung zu Inhalt und Quelle. Für unterschiedliche Sprachen können mehrfache Werte vorliegen.
dc:format MIMEType Intern Das Dateiformat, das für die Speicherung der Quelle verwendet wurde. Werkzeuge und Programme sollten diese Eigenschaft beim Sichern setzen. Hierbei können entsprechende Kennzeichner (qualifier) vorkommen.
dc:identifier Text Extern Eindeutiger Kennzeichner der Quelle.
dc:language bag Locale Intern Ein ungeordneter Datenbereich, der die Sprachen spezifiziert, die in der Quelle verwendet werden.
dc:publisher bag ProperName Extern Der Herausgeber.
dc:relation bag Text Extern Beziehungen zu anderen Dokumenten.
dc:rights Lang Alt Extern Formlose Rechtserklärung, nach Sprache ausgewählt.
dc:source Text Extern Eindeutiger Kennzeichner zu den Werken, aus denen die Quelle abgeleitet wurde.
dc:subject bag Text Extern Ein ungeordneter Datenbereich aus Beschreibungen oder Stichwörtern, die das Thema des Quelleninhalts aufführen.
dc:title Lang Alt Extern Der Titel des Dokuments oder der Name der Quelle. Üblicherweise ist dies der Name, unter dem die Quelle formell bekannt ist.
dc:type bag open Choice Extern Ein Dokument-Typ; zum Beispiel Roman, Gedicht oder Werk.

Übergang von DocInfo zu XMP

Die Tabelle zeigt, wie Einträge und Eigenschaften aus den Bereichen DocInfo und XMP zusammenhängen und sich übersetzen lassen.


Document information dictionary XMP
Eintrag PDF Typ Eigenschaft XMP Typ
Title (Titel) text string dc:title Lang Alt
Author (Autor) text string dc:creator seq ProperName
Subject (Thema) text string dc:description
[„x-default”]
bag Text
Keywords
(Stichworte)
text string pdf:Keywords Text
Creator
(Anwendung)
text string xmp:CreatorTool AgentName
Producer
(PDF erstellt mit)
text string pdf:Producer AgentName
CreationDate
(Erstellt am)
date xmp:CreateDate Date
ModDate
(Geändert am)
date xmp:ModifyDate Date

Andere Schemas, die von der Adobe Creative Suite unterstützt werden

  • Basic XMP *
  • Dublin Core *
  • Rights Management *
  • Media Management *
  • Adobe PDF *

* unterstützt von Acrobat & PDF

  • Photoshop (IPTC Teilmenge)
  • EXIF
  • Job Ticket Management
  • XMP Page Text
  • Camera Raw – Metadaten-Bearbeitungsbereich
  • Photoshop History
  • Audio & Video
  • Stock Photos

Custom Schemas (spezifische, maßgeschneiderte Schemas)

Die Schemas, die in diesem Bericht definiert werden sind Kern-Schemas, die für viele Anwendungsbereiche geeignet sein dürften. Falls möglich, sollten immer Eigenschaften von bereits vorhandenen Schemas zum Einsatz kommen. Dennoch ist XMP so eingerichtet worden, dass es sich einfach durch hinzufügen von eigenen Schemas (Custom Schemas) erweitern lässt. Falls sich Ihre Erfordernisse an Metadaten nicht von den Kern-Schemas abgedeckt sind, können Sie eigene Schemas definieren und verwenden.

Falls Sie beabsichtigen, eigene Namensräume zu erstellen, beachten Sie folgendes: Vermeiden Sie, Eigenschaften aufzunehmen, die die gleiche Semantik verwenden, wie Eigenschaften in bereits vorhandenen Namensräumen.

Falls die von Ihnen definierten Eigenschaften auch für andere Anwender nützlich sein sollten, versuchen sie die Zusammenarbeit zu erleichtern, indem Sie einen allgemeinen Namensraum (common namespace) erstellen, um eine Vielzahl an inkompatiblen Namensräumen zu verhindern. Um ein neues Schema zu definieren, sollten Sie in einem visuell lesbaren Dokument die Spezifikationen des Schemas beschreiben. Das Dokument mit den Spezifikationen sollte jedem Entwickler zugänglich sein, der Code zu verfasst, der Ihre Metadaten verstehen sollte.

Achtung: Kommende XMP-Versionen können durchaus maschinenlesbare Schema-Spezifikationen unterstützen, doch eine solche Unterstützung wird immer ausschließlich zusätzlich zu visuell lesbaren Dokumenten mit Schema-Spezifikationen geboten werden und diese nicht ersetzen.

Wie kommen Metadaten ins PDF?

Es gibt eine Reihe von Lösungen, mit denen Sie Metadaten automatisch oder von Hand in PDF einfügen können. Die Übersicht zeigt einige Möglichkeiten:

Info Dictionary

Manuell

  • Adobe Acrobat Standard/Professional
  • Other 3rd party PDF viewers

Automatisch

  • Acrobat SDK
  • Adobe PDFLibrary
  • hunderte weitere Programme
  • Libraries und Tools

XMP

Manuell

  • Adobe Acrobat Standard/Professional
  • PDF Enhancer von Apago
  • PdfLicenseManager

Automatisch

  • Acrobat SDK
  • Adobe PDFLibrary
  • Adobe XMPToolkit
  • PDF Enhancer von Apago
  • iText

Weitere Quellen im Internet

Adobe Acrobat

XMP

Andere

Leonard Rosenthol, Adobe/aoe

About PDF/A Competence Center

The first of the PDF Association's Competence Centers.

Hinterlasse eine Antwort