In diesem Artikel werden folgende Themenbereiche behandelt:
Was sind Metadaten?
Warum Metadaten?
Metadaten in PDF
Alles über XMP
Schemas im Überblick: XMP, Adobe PDF, Dublin Core
Wie kommen Metadaten ins PDF?
Was sind Metadaten?
„Daten über Daten“
Metadaten sind Daten über Daten. Diese beschreiben den Inhalt, die Beschaffenheit, die Bedingungen und andere Charakteristika von Daten. Die Bezeichnung „Metadaten” wurde von Jack Myers in 1960er Jahren geprägt.
Metadaten sind überall
Metadaten helfen uns dabei, die Welt um uns herum zu verstehen. Ohne sie ist man verloren. Metadaten existieren auch unabhängig von Computern, etwa auf Plänen oder Landkarten.
Ein einfaches Beispiel für Metadaten auf einer Landkarte.
Warum Metadaten?
Es gibt viele Gründe dafür, Metadaten zu nutzen. Unternehmen können davon profitieren, wenn sie beim Aufbau und der Pflege ihrer Datenbestände Metadaten verwenden. Wird gleich bei der Datenerfassung Zeit in die intelligente Verwaltung der Dokumentdaten investiert, so macht sich der anfängliche Mehraufwand auf lange Sicht gesehen bezahlt.
Im späteren Ablauf kann etwa die Abrechnungsstelle auf die Metadaten zurückgreifen oder der Datenversand wird vereinfacht. Auch Suchvorgänge lassen sich wesentlich verbessern, wenn dabei vereinheitliche Begrifflichkeiten genutzt werden.
Einsatzgebiete für Metadaten
Metadaten helfen in verschiedenen Bereichen, die Übersicht und die Datenhandhabung zu optimieren. Dazu zählen zum Beispiel:
Identifizierung
-
Titel
-
Abgedeckter Bereich
-
Themen
-
Verursacher
-
Herkunft – wo kommen die Daten her?
Vertrieb, Verteilung
-
Lieferant
-
Formate
-
Medien
-
Online
-
Preis
Informationen zu Datensatz und Eigenschaften
-
Funktionen und Merkmale
-
Eigenschaften
-
Werte der Eigenschaften
-
und vieles weitere mehr…
Vorteile für interne Daten
Innerhalb eines Unternehmens/einer Behörde minimieren Metadaten den Arbeitszeitaufwand bei vielen Aufgaben. So können Mitarbeiter schneller die gewünschten Datensätze lokalisieren und müssen nicht an anderen Orten nach zusätzlicher Information zu bestimmten Daten suchen. Bei Personalfluktuation wird ein sonst möglicher Verlust von Informationen vermieden. Über Metadaten stehen viele Automatisierungsmöglichkeiten offen, die ohne diese Zusatzdaten nicht realisierbar sind. Eine weitere Zeitersparnis ergibt sich dadurch, dass sich Datensatz-Doubletten innerhalb des Betriebs vermeiden lassen.
Vorteile für externe Daten
Korrekte Metadaten erleichtern die Eingabe von Vorgängen an die Rechnungsstelle. Ein „mehr” an Metadaten bedeutet auch, dass mehr Leute Nutzen aus diesen Daten ziehen können. Hier ist eine Zeitersparnis möglich, weil Datensatz-Doubletten in verschiedenen Niederlassungen vermieden werden können.
Metadaten in PDF
Wie werden nun Metadaten in PDF organisiert? In Adobe Acrobat kann man die Metadaten über die „Dokumenteigenschaften” einsehen und verändern.
Info Dictionary
Der Bereich Info Dictionary ist Bestandteil von PDF bereits seit der PDF-Version 1.0. Dieser Bereich gehört zum Dokument selbst und enthält eine Sammlung von Paaren zu Bezeichnungen und Werten (Name/Value Pairs). Zu den vordefinierten Paaren zählen die Werte Titel, Verfasser,Thema, Stichwörter und weitere. Es sind auch eigene Werte möglich.
Die Dokumenteigenschaften in Adobe Acrobat.
PieceInfo Dictionary
Mit PDF 1.3 (Acrobat 4) wurde auch das PieceInfo Dictionary eingeführt. Dieses Verzeichnis ist entweder dokument- oder seitenbezogen. Die Rubrik Application Private Data wird von Adobe Photoshop und Adobe Illustrator genutzt.
XMP (Extensible Metadata Platform)
Eine neuere Entwicklung ist XMP; eingeführt mit PDF 1.4 (Acrobat 5). XMP basiert auf RDF (Resource Definition Framework). RDF ist ein W3C Standard für XML-basierte Metadaten (weitere Informationen www.w3.org/RDF). XMP kann mit XObjects auf Dokumentseiten verbunden sein (auch bekannt als „Images & Repeating Objects” = Bilder und wiederkehrende Objekte). Zudem kann XMP mit Schriften und ICC-Profilen verknüpft sein.
Object Data (aka User Properties = anwenderbezogene Eigenschaften)
Object Data wurde mit Acrobat 7 eingeführt und basiert auf PDF 1.6. Dieser Bereich ist verknüpft mit individuellen Inhaltselementen. DieName/Value Pairs können über Zeichenketten, Ziffern oder logische Verknüpfungen realisiert werden.
Ein Beispiel für Object Data.
Measurement Properties (Maßeigenschaften)
Ebenfalls seit PDF 1.6 sind Maßeigenschaften möglich. Diese Eigenschaften sind seitenbezogen und liefern Informationen über Größen und Maßeinheiten. Hiermit lassen sich PDF-Einheiten mit Einheiten aus der realen Welt verknüpfen; etwa 1 cm entspricht 1 km.
Maßeigenschaften gibt es seit PDF 1.6.
Alles über XMP
XMP im Überblick
XMP (Extensible Metadata Platform) ermöglicht, dass Metadaten in allen relevanten Adobe-Applikationen (aber nicht nur dort) nach einem einheitlichen Schema integriert werden.
EXtensible (Erweiterbar)
-
Neue Metadaten-Eigenschaften lassen sich einfach hinzufügen.
-
Erweitert die Bedienoberfläche der Creative Suite Programme.
-
XMP wird von mehr als 30 großen Herstellern von Asset-Management-Lösungen unterstützt.
Metadata
-
Daten über Daten.
-
XML basiert auf dem W3C-Standard für das Metadaten-Encoding (RDF).
-
Erstellt „smart assets”, indem XML Metadaten in binäre Dateien eingefügt werden.
-
Dateiformat-neutral, etwa JPEG, TIFF, EPS, PDF, Adobe-native-Formate.
-
Metadaten Schema ist neutral (anpassbar).
Platform
-
Läuft in allen Adobe Creative Suite Produkten.
-
Basiert auf W3C Industrie-Standards.
-
Kostenlos verfügbar über Open Source.
-
Intelligente Lösung, sie ist für automatisierte Workflows geeignet, womit sich die Produktivität steigern lässt.
XMP Vorzüge
| Bereich Business | Bereich Technik | ||
|---|---|---|---|
| Fördert intelligente Medien | Fördert Wieder- und Neuverwendung von Inhalten über Bereiche hinaus. Fördert den Markenwert, das Wissenskapital sowie andere immaterielle Werte. | Selbst-beschreibend | Keine Beschränkung auf ein bestimmtes Schema. Jede Datei kann mit Metadaten ausgestattet werden. |
| Offene Plattform | Ermöglicht die Erfassung, Erhaltung und Ausbreitung von Metadaten, unabhängig von Geräten, Programmen, Dateiformaten, Institutionen. | Zugänglich (Accessibility) | Basiert auf Industrie-Standards (W3C). Frei verfügbar. Erweitert Metadaten über die Grenzen von Datenbanken hinaus. |
| Intelligente Medien, basierend auf XMP | |||
XMP-Schlüsselelemente
-
Framework: XML Struktur für die Ablage von Informationen.
-
Datenpaket: Wie und wo werden Informationen gelagert und abgerufen?
-
Spezifikation: Beschreibung des Standards und das Verhältnis zu anderen Standards.
-
Entwickler-Tool (SDK): Ist kostenlos verfügbar, Open Source.
-
Anpassbare Felder: Bedienoberfläche für Anwenderinteraktion mit Metadaten.
-
Plattform: Adobe-CS-weiter, standardisierter Zugang zu Metadaten.
Ein genauerer Blick auf XMP
XMP basiert auf W3C Standards. Das Adobe Metadaten-Gerüst ist die erste große, umfassende praktische Anwendung von RDF (Resource Description Format). Die Elemente der Adobe-XMP-Plattform umfassen:
-
XMP Framework: RDF Framework oder wiedergebende Metadaten aus mehrfachen Schemas.
-
XMP Schema: Schema für die Beschreibung von Eigenschaften, enthalten in Namensräumen (namespaces).
-
XMP Datenpakettechnologie: Methode für die Einbettung von XML-Fragmenten in Binärcode.
-
XMP SDK: Unterstützung für Dritthersteller-Lösungen (Oberfläche und Erweiterungen).
XMP Schema
RDF spezifiziert Kennungen in Abfolgen von XML, strukturiert in Quelle, Eigenschaft, Wert (oder alternativ Subjekt, Prädikat, Objekt). RDF Schemas legen das Vokabular fest. Adobe hat die Standard XMP Schemas entworfen. Das XMP Framework erlaubt die Einbindung beliebiger Schemas, vorausgesetzt sie sind gemäß Spezifikation aufgebaut. Bereichsspezifische Schemas (etwa IPTC oder NewsML) können innerhalb der XMP-Datenpakete beschrieben werden.
Ein Beispiel für ein XMP Schema für Video.
Schemas im Überblick: XMP, Adobe PDF, Dublin Core
XMP Basis-Schema
| Eigenschaft | Wert | Kategorie | Beschreibung |
| xmp:CreateDate | Date | Intern | Datum und Uhrzeit für die Erstellung der ursprünglichen Quelle. |
| xmp:CreatorTool | AgentName | Intern | Der Name des ersten bekannten Werkzeugs, das benutzt wurde, um die Quelle zu erstellen. Falls in den Metadaten eine History vorliegt, sollte dieser Wert mit der Eigenschaft softwareAgent inxmpMM:History übereinstimmen. |
| xmp:MetadataDate | Date | Intern | Datum und Uhrzeit, zu der irgendein Metadaten-Eintrag zuletzt geändert wurde. Der Eintrag sollte gleich oder neuer sein als xmp:ModifyDate. |
| xmp:ModifyDate | Date | Intern | Datum und Uhrzeit, als die Quelle zuletzt geändert wurde. Achtung: Der Wert dieser Eigenschaft ist nicht notwendigerweise der gleiche wie das Änderungsdatum des Dateisystems, weil er bereits gesetzt wird, bevor die Datei gespeichert wird. |
Das XMP Grundschema liefert Eigenschaften, die grundsätzliche, beschreibende Informationen bereitstellen.
-
Der Schema Namespace URI (URI = Uniform Resource Identifier) ist ns.adobe.com/xmp/1.0/
-
Das bevorzugte Namensraum-Präfix des Schemas lautet xmp.
Adobe PDF Schema
| Eigenschaft | Wert | Kategorie | Beschreibung |
| pdf:Keywords | Text | Extern | Stichworte. |
| pdf:PDFVersion | Text | Intern | Die PDF-Version (zum Beispiel 1.0, 1.3, und so weiter). |
| pdf:Producer | AgentName | Intern | Der Name des Werkzeugs, welches das PDF-Dokument erstellt hat. |
Das Adobe-PDF-Schema stellt ein Set von Eigenschaften bereit, die in Adobe-PDF-Dokumenten verwendet werden.
-
Der Schema Namespace URI ist ns.adobe.com/pdf/1.3/
-
Das bevorzugte Namensraum-Präfix des Schemas lautet pdf
Die Dublin Core Metadata Initiative (http://dublincore.org)
Das Dublin Core Metadaten Element Set (auch bekannt als Dublin Core) ist ein Vokabular mit fünfzehn Eigenschaften, welche die Eigenschaften der Quelle beschreiben. Dublin Core ist Teil eines größeren Satzes, bestehend aus Metadaten-Vokabular und technischen Spezifikationen, die von der Dublin Core Metadata Initiative (DCMI) betreut werden.
Der komplette Satz der Vokabelverzeichnisse, DCMI Metadata Terms [DCMI-TERMS], beinhalten zudem einen Satz von Quellen-Kategorien (resource classes), das DCMI Type Vocabulary [DCMI-TYPE].
Es ist beabsichtigt, dass die Bedingungen in den DCMI-Vokabelverzeichnissen in Verbindung mit anderen, kompatiblen Vokabelverzeichnissen eingesetzt werden; und zwar im Zusammenhang mit Anwendungsprofilen und auf der Basis des DCMI Abstract Models [DCAM].
Der Name „Dublin” hat seinen Ursprung in einem Workshop, der 1995 in Dublin, Ohio stattfand. Der Begriff „Core” = „Kernbereich” kommt daher, dass die Bestandteile des Sets umfassende Oberbegriffe darstellen, die geeignet sind, einen umfassenden Bestand an Quellen zu beschreiben.
Dublin Core (dc) Schema
| Eigenschaft | Wert | Kategorie | Beschreibung |
| dc:contributor | bag ProperName | Extern | Beitragende zur Quelle (zusätzlich zum Autor). |
| dc:coverage | Text | Extern | Ausmaß oder Bereich der Quelle. |
| dc:creator | seq ProperName | Extern | Die Autoren der Quelle (sortiert nach Rangfolge, falls von Bedeutung). |
| dc:date | seq Date | Extern | Datumsangabe(n) für wichtige Ereignisse, die mit der Quelle zusammenhängen. |
| dc:description | Lang Alt | Extern | Eine Textbeschreibung zu Inhalt und Quelle. Für unterschiedliche Sprachen können mehrfache Werte vorliegen. |
| dc:format | MIMEType | Intern | Das Dateiformat, das für die Speicherung der Quelle verwendet wurde. Werkzeuge und Programme sollten diese Eigenschaft beim Sichern setzen. Hierbei können entsprechende Kennzeichner (qualifier) vorkommen. |
| dc:identifier | Text | Extern | Eindeutiger Kennzeichner der Quelle. |
| dc:language | bag Locale | Intern | Ein ungeordneter Datenbereich, der die Sprachen spezifiziert, die in der Quelle verwendet werden. |
| dc:publisher | bag ProperName | Extern | Der Herausgeber. |
| dc:relation | bag Text | Extern | Beziehungen zu anderen Dokumenten. |
| dc:rights | Lang Alt | Extern | Formlose Rechtserklärung, nach Sprache ausgewählt. |
| dc:source | Text | Extern | Eindeutiger Kennzeichner zu den Werken, aus denen die Quelle abgeleitet wurde. |
| dc:subject | bag Text | Extern | Ein ungeordneter Datenbereich aus Beschreibungen oder Stichwörtern, die das Thema des Quelleninhalts aufführen. |
| dc:title | Lang Alt | Extern | Der Titel des Dokuments oder der Name der Quelle. Üblicherweise ist dies der Name, unter dem die Quelle formell bekannt ist. |
| dc:type | bag open Choice | Extern | Ein Dokument-Typ; zum Beispiel Roman, Gedicht oder Werk. |
Übergang von DocInfo zu XMP
Die Tabelle zeigt, wie Einträge und Eigenschaften aus den Bereichen DocInfo und XMP zusammenhängen und sich übersetzen lassen.
| Document information dictionary | XMP | ||
| Eintrag | PDF Typ | Eigenschaft | XMP Typ |
| Title (Titel) | text string | dc:title | Lang Alt |
| Author (Autor) | text string | dc:creator | seq ProperName |
| Subject (Thema) | text string | dc:description [„x-default”] |
bag Text |
| Keywords (Stichworte) |
text string | pdf:Keywords | Text |
| Creator (Anwendung) |
text string | xmp:CreatorTool | AgentName |
| Producer (PDF erstellt mit) |
text string | pdf:Producer | AgentName |
| CreationDate (Erstellt am) |
date | xmp:CreateDate | Date |
| ModDate (Geändert am) |
date | xmp:ModifyDate | Date |
Andere Schemas, die von der Adobe Creative Suite unterstützt werden
-
Basic XMP *
-
Dublin Core *
-
Rights Management *
-
Media Management *
-
Adobe PDF *
* unterstützt von Acrobat & PDF
-
Photoshop (IPTC Teilmenge)
-
EXIF
-
Job Ticket Management
-
XMP Page Text
-
Camera Raw – Metadaten-Bearbeitungsbereich
-
Photoshop History
-
Audio & Video
-
Stock Photos
Custom Schemas (spezifische, maßgeschneiderte Schemas)
Die Schemas, die in diesem Bericht definiert werden sind Kern-Schemas, die für viele Anwendungsbereiche geeignet sein dürften. Falls möglich, sollten immer Eigenschaften von bereits vorhandenen Schemas zum Einsatz kommen. Dennoch ist XMP so eingerichtet worden, dass es sich einfach durch hinzufügen von eigenen Schemas (Custom Schemas) erweitern lässt. Falls sich Ihre Erfordernisse an Metadaten nicht von den Kern-Schemas abgedeckt sind, können Sie eigene Schemas definieren und verwenden.
Falls Sie beabsichtigen, eigene Namensräume zu erstellen, beachten Sie folgendes: Vermeiden Sie, Eigenschaften aufzunehmen, die die gleiche Semantik verwenden, wie Eigenschaften in bereits vorhandenen Namensräumen.
Falls die von Ihnen definierten Eigenschaften auch für andere Anwender nützlich sein sollten, versuchen sie die Zusammenarbeit zu erleichtern, indem Sie einen allgemeinen Namensraum (common namespace) erstellen, um eine Vielzahl an inkompatiblen Namensräumen zu verhindern. Um ein neues Schema zu definieren, sollten Sie in einem visuell lesbaren Dokument die Spezifikationen des Schemas beschreiben. Das Dokument mit den Spezifikationen sollte jedem Entwickler zugänglich sein, der Code zu verfasst, der Ihre Metadaten verstehen sollte.
Achtung: Kommende XMP-Versionen können durchaus maschinenlesbare Schema-Spezifikationen unterstützen, doch eine solche Unterstützung wird immer ausschließlich zusätzlich zu visuell lesbaren Dokumenten mit Schema-Spezifikationen geboten werden und diese nicht ersetzen.
Wie kommen Metadaten ins PDF?
Es gibt eine Reihe von Lösungen, mit denen Sie Metadaten automatisch oder von Hand in PDF einfügen können. Die Übersicht zeigt einige Möglichkeiten:
Info Dictionary
Manuell
-
Adobe Acrobat Standard/Professional
-
Other 3rd party PDF viewers
Automatisch
-
Acrobat SDK
-
Adobe PDFLibrary
-
hunderte weitere Programme
-
Libraries und Tools
XMP
Manuell
-
Adobe Acrobat Standard/Professional
-
PDF Enhancer von Apago
-
PdfLicenseManager
Automatisch
-
Acrobat SDK
-
Adobe PDFLibrary
-
Adobe XMPToolkit
-
PDF Enhancer von Apago
-
iText
Weitere Quellen im Internet
Adobe Acrobat
-
Acrobat: www.adobe.com/products/acrobat/
-
Acrobat SDK: www.adobe.com/devnet/acrobat/
-
Adobe PDFLibrary: www.adobe.com/devnet/pdf/library/
XMP
-
XMP Website: www.adobe.com/xmp
-
XMP Toolkit 4.0 Labs: http://labs.adobe.com/xmp
Andere
-
PdfLicenseManager: http://creativecommons.org/weblog/entry/6054
-
PDF Enhancer: www.apagoinc.com/prod_home.php?prod_id=2
-
iText: www.lowagie.com/iText
Leonard Rosenthol, Adobe/aoe
Deutsch
English







