PDF/A – Un nuovo standard per l’archiviazione a lungo termine

Il 28 settembre 2005, la International Standards Organization (ISO) ha approvato un nuovo standard per l’archiviazione dei documenti elettronici: ISO-19005-1 – Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1). Questo standard è il risultato di tre anni di incontri, discussioni e verifiche a cui hanno partecipato organizzazioni e aziende di tutto il mondo.

Negli Stati Uniti, a maggio 2002, la AIIM (Association for Information and Image Management), la NPES (National Printing Equipment Association) e l’Ufficio Amministrativo dei Tribunali statunitensi lanciarono un’iniziativa volta a creare un formato standard, basato sul formato PDF di Adobe, per l’archiviazione elettronica dei documenti. Il primo incontro si tenne nell’ottobre 2002. Intervennero numerosi utilizzatori di documenti elettronici e fornitori di soluzioni PDF, tra i quali Adobe Systems, Library of Congress, Surety Inc., Quality Associates Inc., Appligent, Merck, EMC, PDF Sages e NARA (National Archives & Records Administration). Successivamente parteciparono Xerox, Honeywell, EDS e Glaxo Smith Kline, solo per citarne alcuni.

L’iniziativa statunitense preparò una prima bozza, sottoponendo il progetto alla ISO affinché lo registrasse come standard internazionale. La ISO assegnò il progetto a un Comitato Tecnico (TC 171 – Document Management Applications). Il TC 171 è costituito da 13 paesi partecipanti (ognuno dei quali ha diritto a un voto) e 21 paesi osservatori. Dopo numerose revisioni e rettifiche, lo standard fu approvato dalle aziende partecipanti all’ISO nel settembre 2005.

Perché l’iniziativa PDF/A?

I formati di archiviazione approvati variano da nazione a nazione. I metodi di archiviazione tradizionali (carta, microfilm, microschede) garantiscono la riproducibilità, ma sono ormai sorpassati rispetto alle tecnologie moderne. Non è possibile inviare rapidamente in tutto il mondo file di grandi dimensioni ed è alquanto difficile cercare uno specifico contenuto all’interno dei documenti archiviati. Molte organizzazioni hanno compiuto un primo passo verso l’archiviazione elettronica implementando gli archivi TIFF. Questo formato garantisce la riproducibilità nel lungo periodo e ha una struttura ben conosciuta. Può essere trasmesso agevolmente ad altre aziende in tutto il mondo, ma non consente di effettuare ricerche con facilità. Si iniziò quindi a prendere in considerazione il PDF, un formato di archiviazione più interessante del TIFF per diverse ragioni: il PDF memorizza gli oggetti strutturati (come testo, immagini vettoriali e raster) consentendo la ricerca full-text nell’intero archivio. Il TIFF è un formato raster e, per effettuare ricerche, occorre prima digitalizzarlo con un motore OCR (optical character recognition, riconoscimento ottico dei caratteri).

I file PDF sono più compatti: richiedono soltanto una frazione dello spazio di memoria necessario ai file TIFF corrispondenti e spesso forniscono una qualità migliore. Le piccole dimensioni dei file sono un vantaggio soprattutto per i trasferimenti elettronici (FTP, allegati e-mail, ecc.). In un file PDF è possibile incorporare metadati come titolo, autore, data di creazione e di modifica, oggetto, parole chiave, ecc. Si possono quindi classificare i documenti automaticamente in base ai metadati, senza la necessità di un intervento umano.

In un documento PDF, il contenuto delle pagine è solitamente indipendente dal dispositivo, cioè non dipende da una particolare risoluzione raster o modello di colore. Quando le pagine devono essere riprodotte per la visualizzazione o la stampa, vengono prima mappate su un raster (processo di rendering). Perciò, anche in futuro, il PDF trarrà vantaggio dai progressi tecnologici dei dispositivi di riproduzione (stampanti, monitor, ecc.).

Adobe Systems, inventrice dello standard de facto PDF, ha pubblicato sette nuove versioni del “PDF Reference Manual” negli ultimi dodici anni. Ogni nuova versione ha arricchito il formato, aggiungendo innumerevoli funzioni e aggiornando alcune delle precedenti. È quindi sorta l’esigenza di definire un formato stabile derivato dal PDF, basato sulle specifiche proprietarie di Adobe, che potesse essere accettato come standard a livello internazionale per l’archiviazione a lungo termine. Il risultato è il PDF/A.

Lo standard PDF/A

L’obiettivo del PDF/A

Lo standard ISO 19005-1 definisce “un formato di file basato su PDF, conosciuto come PDF/A, che fornisce un meccanismo per la rappresentazione dei documenti elettronici in un modo che preservi il loro aspetto visivo nel tempo, indipendentemente dagli strumenti e dai sistemi utilizzati per la creazione, la memorizzazione e il rendering dei file” (da ISO 19005-1). Lo standard non definisce una strategia di archiviazione, né quali debbano essere gli obiettivi di un sistema di archiviazione. Identifica un “profilo” che assicura la riproducibilità dei documenti elettronici negli anni a venire.

Un elemento chiave di questa riproducibilità è dato dal fatto che un file PDF/A è contenuto al 100% in se stesso, vale a dire che nel file sono incorporate tutte le informazioni necessarie per visualizzare il documento ogni volta nello stesso modo. Questo riguarda tutto il contenuto visibile come testo, immagini raster e vettoriali, font, informazioni sul colore e molto altro. Tuttavia, un documento PDF/A non può dipendere da informazioni provenienti da sorgenti esterne, dirette o indirette, quali collegamenti a immagini esterne o font non incorporati.

PDF e PDF/A

Nella sua forma nativa, il PDF non può garantire la riproducibilità a lungo termine, né il concetto di “WYSIWYG” (what you see is what you get, quello che vedi è quello che ottieni). È stato necessario includere nello standard alcune restrizioni e rettifiche. Affinché potesse essere accettato, il PDF/A doveva basarsi su una versione esistente del PDF Reference e non su funzionalità annunciate per una versione futura. Come base per lo standard, l’ISO TC 171 scelse l’Adobe PDF Reference 1.4 che Adobe aveva implementato in Acrobat 5. Lo standard ISO stabilisce che il PDF/A “deve rispettare tutti i requisiti del PDF Reference con le modifiche apportate da questa parte di ISO 19005”. Lo standard stesso identifica soltanto le differenze rispetto al PDF Reference. Perciò, per comprendere a pieno il PDF/A, bisogna comprendere anche il PDF Reference 1.4.

Alcune funzionalità consentite nel PDF 1.4 sono state espressamente escluse dal PDF/A, per esempio la trasparenza e le azioni audio/video. Alcuni degli elementi descritti nel PDF Reference 1.4 non sono obbligatori, mentre il PDF/A richiede che vengano implementati, per esempio i font incorporati. In breve, il PDF/A è basato sul PDF Reference 1.4, ma in più definisce determinate funzioni come obbligatorie, consigliate, limitate o proibite.

La “Babilonia” PDF/A, A-1a, A-1b, A-2

Il PDF/A è formato da una serie di standard, che a loro volta consistono di diverse parti. Al momento, soltanto il PDF/A-1 (Part 1) è stato approvato. Il PDF/A-1 è ulteriormente suddiviso in due livelli di conformità: PDF/A-1a e PDF/A-1b.

Il PDF/A-1a (livello di conformità A) indica la piena conformità allo standard PDF/A attualmente approvato ISO 19005-1: Part 1.

Esiste anche un livello di “conformità minima” per il PDF/A: il PDF/A-1b (livello di conformità B). I requisiti del PDF/A-1b mirano a garantire che l’aspetto visivo del file sia riproducibile nel lungo periodo.

La principale differenza tra il PDF/A-1a e il PDF/A-1b riguarda l’estrazione del testo.

Il PDF/A-1 assicura che vengano mantenuti la struttura logica del documento e l’ordine di lettura naturale per il flusso di contenuti testuali. L’estrazione del testo è importante soprattutto quando il documento deve essere visualizzato su un dispositivo mobile (come un PDA) o su altri dispositivi in conformità con la Sezione 508 dello US Rehabilitation Act (legge statunitense contro la discriminazione dei disabili). In questi casi, il testo deve essere riorganizzato su uno schermo di dimensioni limitate (ridisposizione). Questa caratteristica è conosciuta anche come “PDF con tag”.

Il PDF/A-1b assicura che il testo e i contenuti aggiuntivi vengano visualizzati correttamente (p.es. sul monitor di un computer), ma non garantisce che il testo estratto sia leggibile o comprensibile. Di conseguenza non garantisce la conformità con la Sezione 508.

La differenza tra PDF/A-1a e -1b non ha alcun impatto sui documenti digitalizzati mediante scansione, a condizione che i file non siano stati trattati con OCR al fine di renderli ricercabili.

Il Technical Committee sta lavorando a una nuova parte dello standard, ISO 19005-1 Part-2 (PDF/A-2). Il PDF/A-2 includerà alcune delle nuove funzioni aggiunte con le versioni 1.5, 1.6 e 1.7 del PDF Reference. Dovrà essere compatibile con gli standard precedenti, quindi tutti i documenti PDF/A-1 validi dovranno essere conformi anche a PDF/A-2. Tuttavia, i file conformi a PDF/A-2 non saranno necessariamente conformi a PDF/A-1.

Using the PDF/A Standard

Ottenerne una copia

È possibile acquistare lo standard ISO 19005-1 dal sito web ISO. Le copie sono disponibili in formato cartaceo o PDF e, come tutti gli standard ISO, sono protette da copyright. Le pubblicazioni che circolano liberamente su internet sono quindi illegali. Attualmente lo standard è disponibile soltanto in inglese.

Chi dovrebbe leggere lo standard PDF/A?

L’obiettivo del formato PDF/A è di supportare e migliorare una buona strategia di archiviazione. Lo standard è di per sé piuttosto tecnico e può essere compreso pienamente soltanto da esperti che abbiano una buona conoscenza dei linguaggi di descrizione della pagina come il PostScript e il PDF. Lo standard principale è abbastanza breve, ma la quantità di documenti collegati è immensa. Il solo PDF Reference contiene quasi 1.000 pagine, esclusi i documenti di riferimento integrativi come i formati di font, la specifica XML, i formati di compressione, le RFC, ecc.

Inoltre, il solo PDF/A non garantisce l’archiviazione a lungo termine. Un buon approccio consiste nell’ingaggiare un esperto che aiuti a comprendere i requisiti del PDF/A, a stabilire come implementarlo nella propria strategia di archiviazione e che sia in grado di spiegare quali sono i passi da intraprendere per raggiungere tutti gli obiettivi dell’archiviazione.

Quali strumenti sono disponibili?

Esistono strumenti per creare, elaborare e convalidare i documenti PDF/A (panoramica in inglese) che sono sul mercato dalla metà del 2006. La stessa Adobe ha integrato alcune di queste funzioni nella versione 8 di Adobe Acrobat, pubblicata nell’autunno 2006. Anche Microsoft ha reso disponibile un plug-in scaricabile separatamente per il nuovo pacchetto Office 2007, che consente di creare file conformi a PDF/A direttamente dalle applicazioni Office. Data la grande quantità di prodotti esistenti per la creazione di PDF/A, è diventato estremamente importante verificare che i documenti PDF/A siano pienamente conformi allo standard ISO.

Il PDF/A richiede una soluzione completa

Il PDF/A è soltanto una parte di una soluzione di archiviazione completa. Il solo PDF/A non garantisce l’archiviazione a lungo termine e non garantisce che le informazioni vengano visualizzate nel modo desiderato. Il PDF/A non pretende nemmeno che un archivio basato sul PDF/A sia sempre la soluzione migliore. Tuttavia, se si decide di usarlo, il PDF/A definisce un insieme di requisiti che rendono possibile l’archiviazione nel lungo periodo.

Altri aspetti da considerare quando si implementa un archivio conforme a PDF/A includono, per esempio, gli standard e le procedure aziendali, le sorgenti di dati attendibili, i font affidabili, la gestione della qualità e le esigenze individuali. La migrazione degli attuali archivi cartacei o basati su TIFF agli archivi PDF/A non è un’operazione insignificante e deve essere pianificata adeguatamente.

Sommario

PDF/A come nuovo standard di archiviazione

Il PDF/A dovrebbe affermarsi come nuovo standard di archiviazione elettronica. Il PDF è molto diffuso in tutto il mondo, sia nel settore pubblico che privato, ed è un formato di archiviazione già accettato in innumerevoli mercati. Lo standard PDF/A aiuterà a garantire la riproducibilità a lungo termine.

La diffusione dello standard PDF/A influirà probabilmente sullo sviluppo futuro del PDF stesso. Adobe continuerà a migliorare le sue soluzioni PDF e includerà nuove tecnologie. Ne sono esempio il 3D e l’XFA per i moduli PDF dinamici. Lo standard subirà quindi ulteriori pressioni, anche perché uno dei concetti principali che stanno alla base degli standard, soprattutto degli standard di archiviazione, è che rimangono costanti nel tempo e non cambiano periodicamente.

Come reagirà il mercato?

Nel breve periodo non c’è da aspettarsi che il mercato venga inondato da prodotti per il PDF/A. Per capire la tecnologia che sta dietro il PDF/A, è necessaria una notevole conoscenza. Inoltre, gli utenti hanno grandi aspettative qualitative per i software conformi agli standard. I primi tool sono usciti in commercio alla metà del 2006. I più richiesti sono quelli per la creazione e la convalida di documenti conformi a PDF/A, così come per la conversione dei file PDF esistenti in file conformi a PDF/A.

L’apparizione dei primi tool professionali per il PDF/A ha dato inizio al processo di implementazione di archivi conformi a questo standard. Non ci si possono tuttavia attendere troppe funzionalità troppo rapidamente. Si può soltanto contare sul fatto che presto sarà disponibile il più rigido formato PDF/A-1b, mentre la piena funzionalità del PDF/A-1a arriverà in seguito. Probabilmente compariranno anche prodotti che pretenderanno di supportare il PDF/A, quando in realtà non ne sono in grado. Una buona capacità di valutazione e fornitori onesti saranno particolarmente richiesti durante la prima fase di introduzione sul mercato.

Semplici chiacchiere o strategia a lungo termine?

Il PDF/A non può essere considerato una semplice “chiacchiera”. Già da anni si nota una tendenza verso gli archivi basati sul PDF, ormai diventato un formato di archiviazione consolidato. Lo standard PDF/A aiuterà a garantire la conservazione degli archivi elettronici nel lungo periodo. Il fatto che ora Microsoft supporti la creazione dei PDF/A direttamente dalle nuove applicazioni Office è un segnale forte e chiaro. Il PDF/A è ormai una realtà accettata a livello internazionale.

Roger Reeves e Dr. Hans Bärfuss, PDF/A Competence Center e amministratore delegato di PDF Tools AG, Svizzera

About PDF/A Competence Center

The first of the PDF Association's Competence Centers.

Leave a Reply