PDF/A – Une Nouvelle Norme pour L’archivage à Long Terme

Le 28 septembre 2005, l’International Standards Organization (ISO) a approuvé une nouvelle norme régissant l’archivage électronique de documents: ISO-19005-1 – Gestion de documents – Format de fichier des documents électroniques pour une conservation à long terme – Partie 1 : Utilisation du PDF 1.4 (PDF/A-1). Cette norme est le fruits de 3 années de réunions, de débats et de rapports menés à bien par des organismes et entreprises dans le monde entier.

L’initiative visant à créer un format standard pour les documents archivés électroniquement sur la base du format PDF d’Adobe a été lancée aux États-Unis en mai 2002 par l’ AIIM (Association for Information and Image Management), la NPES (National Printing Equipment Association) et les administrations des cours américaines. Le coup d’envoi a été donné par une réunion qui s’est tenue en octobre 2002 en présence de nombreux utilisateurs de documentation électronique et fournisseurs de PDF, dont Adobe Systems, la bibliothèque du Congrès américain, Surety Inc., Quality Associates Inc., Appligent, Merck, EMC, PDF Sages et la NARA (National Archives & Records Administration). Ils ont été rejoints ensuite par Xerox, Honeywell, EDS et Glaxo Smith Kline, pour n’en citer que quelques-uns.

L’initiative américaine a élaboré une première ébauche et a soumis sont projet à l’ISO en vue du dépôt d’une norme internationale. L’ISO a affecté le projet à un comité technique (TC 171 – Applications en gestion des documents). Le TC 171 regroupe 13 pays participants (dont chacun détient un vote) et 21 pays observateurs. À l’issue de nombreux rapports et amendements, la norme a été approuvée en septembre 2005 par les entreprises qui participent à l’ISO.

Pourquoi l’initiative PDF/A?

Les formats d’archivage varient d’un pays à l’autre. Les méthodes d’archivage traditionnelles (papier et microfilms ou microfiches) garantissent la reproductibilité mais sont dépassées par les technologies modernes. Les documents volumineux ne peuvent pas être envoyés rapidement dans le monde entier et il est extrêmement difficile de rechercher un contenu spécifique dans des documents archivés. En abordant l’archivage électronique, de nombreuses entreprises ont commencé par mettre en œuvre des archives TIFF. Le format TIFF garantit la reproductibilité à long terme et possède une structure établie. Il est également facile à transmettre dans un environnement commercial mondial mais la recherche dans les fichiers TIFF est peu pratique. Un mouvement s’est alors amorcé en faveur du PDF. Pour toute une série de raisons, le PDF est un format d’archivage plus attractif : le format PDF enregistre les objets structurés (ex. : texte, graphiques vectoriels, images de trame), ce qui permet une recherche efficace en plein texte dans des archives complètes. Le TIFF est un format de trame et doit d’abord être scanné avec un moteur OCR (reconnaissance optique de caractères) avant toute recherche.

Les fichiers PDF sont davantage compacts et exigent seulement une fraction de l’espace mémoire des fichiers TIFF respectifs, souvent avec une meilleure qualité. La taille plus petite des fichiers présente un avantage tout particulier pour le transfert électronique de fichiers (FTP, pièce jointe d’e-mail etc.). Les métadonnées comme le titre, l’auteur, la date de création, la date de modification, le sujet, les mots-clés etc. peuvent être incorporées dans un fichier PDF. Les fichiers PDF peuvent être classifiés automatiquement sur la base des métadonnées, sans requérir une intervention humaine.

Dans un document PDF, le contenu de la page est généralement indépendant du dispositif, c’est-à-dire qu’il ne dépend pas d’une résolution de trame, d’un système de couleurs spécifique etc. Les pages sont d’abord mappées en trame au moment de leur reproduction pour affichage ou impression (processus de rendu). Le PDF va donc continuer à bénéficier des progrès technologiques accomplis dans les dispositifs de reproduction (imprimantes, moniteurs etc.) pendant longtemps.

Adobe Systems, l’inventeur du PDF, devenu norme de facto, a publié sept nouvelles versions de son “Manuel de référence PDF” au cours des 12 dernières années. Chaque nouvelle version a enrichi le format d’une foule de fonctionnalités et a mis à jour certaines fonctionnalités plus anciennes. Il a donc fallu définir un dérivé stable du format PDF basé sur une spécification PDF propriétaire d’Adobe susceptible d’être accepté internationalement comme norme d’archivage électronique à long terme. Résultat : le PDF/A.

La norme PDF/A

L’objectif du PDF/A

La norme ISO 19005-1 définit “un format de fichier basé sur le PDF, connu sous le nom de PDF/A, qui fournit un mécanisme de représentation des documents électroniques permettant de préserver leur apparence visuelle dans le temps, indépendamment des outils et systèmes utilisés pour la création, le stockage et le rendu des fichiers” (source ISO 19005-1). Cette norme ne définit pas une stratégie d’archivage ni les objectifs d’un système d’archivage. Elle identifie un profil de documents électroniques qui garantira la reproductibilité des documents dans les années à venir.

Un des éléments-clés de cette reproductibilité réside dans l’exigence imposée aux documents PDF/A d’être à 100 % auto-contenus. Toutes les informations nécessaires pour afficher le document de la même manière à tout moment sont incorporées dans le fichier. Cela comprend tout le contenu visible comme le teste, les images de trame, les graphiques vectoriels, les polices, les informations sur les couleurs et bien plus encore. Un document PDF/A n’est cependant pas autorisé à se fier à des informations provenant de sources externes directes ou indirectes comme par exemple des liens vers des fichiers d’images externes ou des polices qui ne sont pas incorporées.

PDF contre PDF/A

Le PDF sous sa forme d’origine ne peut pas garantir la reproductibilité à long terme, même pas le principe “Vous obtenez ce que vous voyez “. Certaines restrictions et certains amendements ont dû être incorporés dans la norme. Pour être acceptée, la norme PDF/A a dû se fonder sur une version existante de la référence PDF et non sur une fonctionnalité anticipée dans une future version. Le TC 171 d’ISO a choisi la référence Adobe PDF 1.4 mise en œuvre par Adobe dans Acrobat 5 comme base pour la norme. La norme ISO précise que PDF/A ‘doit respecter toutes les exigences de la référence PDF telle que modifiée par cette partie d’ISO 19005”. La norme elle-même identifie uniquement les écarts par rapport à la référence PDF. Pour bien comprendre la norme PDF/A, vous devez donc comprendre la référence PDF 1.4.

Certaines fonctionnalités autorisées dans PDF 1.4 ont été spécifiquement exclues de PDF/A, par exemple la transparence, le son et les actions de films. Il existe également des éléments décrits dans la référence PDF 1.4 qui ne sont pas obligatoires. D’un autre côté, PDF/A exige l’implémentation de ces éléments, par exemple les polices incorporées. En bref, PDF/A se fonde sur la référence PDF 1.4 avec des fonctionnalités spécifiques obligatoires, recommandées, restreintes ou interdites.

Les PDF/A, A-1a, A-1b, A-2 “Babylon”

PDF/A s’est imposé comme une série de normes comportant plusieurs parties. Actuellement, seul le PDF/A-1 (Partie 1) a été approuvé. Le PDF/A-1 est encore subdivisé en deux niveaux de conformité : PDF/A-1a et PDF/A-1b.

Le PDF/A-1a (niveau A de conformité) représente une conformité totale avec la norme PDF/A actuellement approuvée ISO 19005-1 : Partie 1.

Il existe un niveau de “conformité minimale” pour le PDF/A : le PDF/A-1b (niveau B de conformité). Les exigences du PDF/A-1b sont destinées à garantir la reproductibilité de l’apparence visuelle rendue du fichier sur le long terme.

Le PDF/A-1a et le PDF/A-1b diffèrent principalement au niveau de l’extraction de texte.

· Le PDF/A-1a garantit la préservation de la structure logique d’un document et d’un flux de texte de contenu dans la séquence naturelle de lecture. L’extraction de texte revêt une importance particulière lorsque le document doit être affiché sur un dispositif mobile (par exemple un PDA) ou d’autres dispositifs conformément à la Section 508 du Rehabilitation Act américain. Dans ces cas-là, le texte doit être réorganisé sur une taille d’écran limitée (nouveau flux). Cette fonctionnalité est également connue sous le nom de “PDFs balisés”.
Le PDF/A-1b garantit que le texte (et le contenu supplémentaire) peut s’afficher correctement (par ex. sur un écran d’ordinateur) mais ne garantit pas que le texte extrait soit lisible ou compréhensible. Ce n’est donc pas une garantie de conformité avec la section 508.

La différence entre PDF/A-1a et -1b n’ont aucun impact pour les documents scannés, dans la mesure où les fichiers n’ont pas été optimisés par OCR pour la recherche.

Le comité technique est en train d’élaborer une nouvelle partie de la norme, ISO 19005-1, Partie-2 (PDF/A-2) . PDF/A-2 couvrira certaines fonctionnalités nouvelles ajoutées aux versions 1.5, 1.6 et 1.7 de la référence PDF. PDF/A-2 devrait posséder une compatibilité arrière, c’est-à-dire que tous les documents PDF/A-1 valides doivent être conformes à PDF/A-2. Toutefois, les fichiers conformes à PDF/A-2 ne seront pas nécessairement conformes à PDF/A-1.

Utilisation de la norme PDF/A

Obtention d’un exemplaire

La norme ISO 19005-1 peut-être acquise sur le site web de l’ISO. Les exemplaires peuvent être commandés au format papier ou au format PDF et, comme toutes les autres normes ISO, ils sont protégés par un copyright. C’est la raison pour laquelle la publication d’une version librement disponible sur Internet est illégale. La norme est actuellement disponible uniquement en anglais.

À qui s’adresse la lecture de la norme PDF/A Standard?

Le format PDF/A est destiné à supporter et favoriser une bonne stratégie d’archivage. La norme elle-même est très technique et ne peut être totalement comprise que par des experts disposant de connaissances fondamentales en langages de description de pages comme PostScript et PDF. La norme principale est plutôt limitée mais le volume des documents associés est énorme. La référence PDF comporte à elle seule près de 1000 pages, hors les documents de référence supplémentaires comme les formats de police, la spécification XML, les formats de compression, RFCs etc.

De plus, la norme PDF/A à elle seule ne garantit pas l’archivage à long terme. Une bonne approche consiste à recruter un expert qui va vous aider à comprendre les exigences de PDF/A, à déterminer comment mettre en œuvre PDF/A dans votre stratégie d’archivage et vous expliquera les étapes nécessaires à la réalisation de vos objectifs globaux d’archivage.

Quels sont les outils disponible?

Des outils de création, de traitement et de validation des documents PDF/A (aperçu en anglais)ont été mis sur le marché depuis la mi-2006. Adobe lui-même a intégré des fonctions respectives dans la version 8 d’Adobe Acrobat, sortie à l’automne 2006. Même Microsoft a mis à disposition un plug-in téléchargeable séparément pour son propre pack Office 2007, permettant ainsi de créer des fichiers conformes à PDF/A à partir de produits Office. En raison du nombre de produits qui sont déjà parus pour la création de PDF/A, il est devenu capital de vérifier soigneusement si les documents PDF/A sont pleinement compatibles avec la norme ISO.

Le PDF/A requiert une solution complète

Le PDF/A ne représente qu’une partie d’une solution d’archivage complète. PDF/A seul ne garantit pas l’archivage à long terme et ne garantit pas non plus que les informations seront affichées comme on le souhaite. PDF/A ne prétend pas non plus qu’une archive basée sur PDF/A soit toujours la meilleure solution. Toutefois, si vous décidez d’utiliser PDF, PDF/A définit un ensemble d’exigences permettant l’archivage à long terme.

Les autres aspects à prendre en compte lors de la mise en œuvre d’une archive conforme à PDF/A incluent, par exemple, les normes et procédures d’entreprise, des sources de données fiables, des polices fiables, la gestion de la qualité et les exigences individuelles spéciales. La migration des archives courantes sur papier ou au format TIFF en archives conformes à PDF/A n’est pas une tâche anodine et doit être soigneusement planifiée.

Résumé

Le PDF/A en tant que nouvelle norme d’archivage

Le PDF/A devrait s’imposer comme la nouvelle norme d’archivage électronique. Le PDF est répandu dans les secteurs privé et public du monde entier et est un format d’archivage déjà accepté sur d’innombrables marchés. La norme PDF/A va contribuer à fournir aux utilisateurs la garantie d’une reproductibilité à long terme.

La création de la norme PDF/A va probablement (et devrait) avoir un impact sur le futur développement du PDF lui-même. Adobe va continuer à améliorer ses offres PDF et ajouter une nouvelle technologie. Parmi les exemples figurent la 3D et le XFA pour les formulaires PDF dynamiques. La norme va donc être soumise à une pression accrue car le concept qui sous-tend les normes, et particulièrement une norme d’archivage, est qu’elles demeurent constantes et ne changent pas régulièrement.

Comment va réagir le marché ?

Ne vous attendez pas à ce que le marché soit inondé de produits PDF/A à brève échéance. La compréhension de la technologie qui se cache derrière PDF/A exige des connaissances considérables. De plus, les utilisateurs ont des attentes plus élevées en termes de qualité pour les logiciels conformes aux normes. Les premiers outils sont sortis sur le marché à la mi-2006. La demande porte sur les outils de création et de validation de documents conformes à PDF/A de même que des conversions simples de fichiers PDF existants en fichiers PDF/A conformes.

L’apparition des premiers outils professionnels PDF/A a initié des processus de mise en œuvre d’archives conformes à PDF/A. On ne peut pas s’attendre à disposer rapidement de nombreuses fonctionnalités. Tablez uniquement sur le format PDF/A-1b le plus restreint déjà disponible, la fonctionnalité complète de PDF/A-1a ne devant arriver que plus tard. Attendez-vous également à trouver de nombreux produits affirmant prendre en charge la norme PDF/A mais ce n’est pas vraiment le cas. Une expertise en évaluations et des fournisseurs sérieux vont être très demandés durant la phase de lancement sur le marché.

Feu de paille ou stratégie à long terme?

Le PDF/A n’est pas considéré actuellement comme un simple “feu de paille”. L’engouement pour les archives au format PDF se manifeste depuis des années et le PDF s’est déjà imposé comme format d’archivage. La norme PDF/A va contribuer à garantir la préservation à long terme des fichiers électroniques. Maintenant que Microsoft prend en charge la génération directe de PDF/A à partir de ses nouveaux produits Office, le signal est clair et massif. Internationalement adoptée, le format PDF/A est là pour durer.

Roger Reeves et le Dr Hans Bärfuss, du PDF/A Competence Center et PDG de PDF Tools SA, Suisse

About PDF Tools AG

PDF Tools AG counts more than 4,000 companies and organizations in 60 countries among its customers, making it one of the world’s leading producers of software solutions and programming components for PDF and PDF/A products.

Laisser un commentaire