3. Frågor och svar om PDF/A
Frågor
Svar
PDF står för ”Portable Document Format” och kännetecknas av att formatet ska kunna visas och användas oberoende av system och verktyg – såväl hårdvara som mjukvara – som användes för att ursprungligen framställa dokumentet.
Vilka versioner av PDF finns det?
PDF finns i ett antal versioner; från det första versionen 1.0 till den senaste 1.7.
PDF 1.7 blev en ISO-standard i och med ISO 32000-1:2008, och nästa eventuella version av PDF (2.0) hanteras av ISO (ISO 32000-2).
PDF 1.7 standarden har stöd för att utökas (”extensibility”), vilket innebär att leverantörer kan bygga ut standarden med särskilda, icke-standardiserade, funktioner.
Vad är PDF/A?
PDF/A är en ISO-standard (ISO 19005) som utgår från PDF, version 1.4 för PDF/A-1 och version 1.7 för PDF/A-2 och -3, och är anpassat särskilt för bevarandet av digitala dokument för obestämd framtid.
Vad är skillnaden mellan PDF och PDF/A?
PDF/A begränsar PDF genom att förbjuda vissa funktioner som finns i PDF i syfte att säkerställa att dokumentet kan visas och användas för obestämd framtid.
Vad betyder ”A” i PDF/A?
Det framgår inte av specifikationerna till PDF/A, men en vanlig förekommande tolkning är ”Archive”.
Hur många versioner av PDF/A finns det?
Det finns tre versioner av PDF/A – 1, 2 och 3. De formella benämningarna är: ISO 19005-1:2005 (PDF/A-1), ISO 19005-2:2011 (PDF/A-2), och ISO 19005-3:2012 (PDF/A-3).
Varje version av PDF/A har sedan särskilda ”överensstämmelsenivåer” (”conformance level”). Samtliga versioner av PDF/A har överensstämmelsenivån "a" och "b", medan PDF/A-2 och -3 även har nivån "u".
Vad är skillnaden mellan PDF/A -1, -2 och -3?
Förutom att PDF/A-2 och -3 har överensstämmelsenivån ”u”, så kan man förenklat säga att PDF/A-2 tillåter omslutning av PDF/A-dokument, det vill säga, man kan bifoga filer men endast av typen PDF/A, samt tillåter användandet av JPEG2000 -formatet. PDF/A-2 och -3 skiljer sig i princip enbart avseende typen av filer man kan bifoga; PDF/A-3 tillåter att man bifogar arbiträr data, det vill säga, man kan bifoga vilka typer av filer som helst och inte bara PDF/A -dokument.
Att notera är att de olika versionerna av PDF inte är ömsesidigt uteslutande – PDF/A-3 är inte den ”nyaste” versionen av PDF/A – tanken är att de ska användas vid olika situationer och behov.
När kan man använda PDF/A-2 eller -3?
När man behöver en särskild funktionalitet som inte tillåts av PDF/A-1, exempelvis överensstämmelsenivå ”u”, JPEG2000 eller omslutning av andra PDF/A -dokument eller arbiträr data.
Går det bra att använda PDF/A-2 eller -3 för långtidslagring av digitala allmänna handlingar?
Den juridiska utgångspunkten för användandet av PDF/A för myndigheter är kap. 3 § 4 i RA-FS 2009:2, där giltig format för arkivering av kontorsdokument är PDF/A-1. Det finns därmed inget rättsligt stöd för att använda PDF/A-2 eller -3. Riksarkivet utreder dock frågan om att använda PDF/A-2 eller -3 för långtidslagring av digitala allmänna handlingar.
Vad är skillnaden mellan överensstämmelsenivåerna ”a”, ”b” och ”u”?
Överensstämmelsenivåerna bygger på varandra i ordningen: b, u och a.
Överensstämmelsenivå "b" innebär att PDF/A -dokumentet måste överensstämma med de grundläggande kraven i PDF/A -specifikationerna. Denna överensstämmelsenivå är främst till för mindre komplexa dokument såsom inskannade dokument, och enklare dokument, där man vill bevara ett dokument visuellt.
Överensstämmelsenivå "u", som bara gäller PDF/A-2 och -3, innebär att PDF/A -dokumentet måste överensstämma med de grundläggande kraven, det vill säga ”b”, och Unicode -kraven i PDF/A -specifikationerna. Denna överensstämmelsenivå är främst till för enklare dokument, där man vill bevara ett dokument visuellt men också säkerställa att textinnehållet är bearbetningsbar. För PDF/A-1 omfattas Unicode -kraven genom överensstämmelsenivå ”a”.
Överensstämmelsenivå "a" innebär att PDF/A -dokumentet måste överensstämma med samtliga uppställda krav i PDF/A -specifikationerna. Denna överensstämmelsenivå är främst till för mer komplexa dokument, där man vill bevara inte bara dokumentet visuellt och att textinnehållet är bearbetningsbar, det vill säga ”b” och ”u”, utan också dokumentets logiska/semantiska struktur i syfte att senare kunna tolka och bearbeta dokumentet korrekt.
När kan man använda ”a” eller ”b”?
Varje myndighet måste själv göra en bedömning om PDF/A ”a” eller ”b”, eller en annan föreskriven format, är mer lämplig för att bevara en digital allmän handling i ursprungligt skick, men ett par generella scenarier kan vara följande.
När medborgare skickar in inskannade dokument eller när myndigheten skannar in dokument av inlämnade handlingar i pappersform så kan PDF/A-1b vara ett lämpligt alternativ.
När myndigheten har kontroll över dokumentets logiska struktur så kan PDF/A-1a vare ett lämpligt val. Detta kan exempelvis vara när ett PDF-dokument genereras efter att användaren fyllt i sina uppgifter i ett webbformulär eller när myndigheten upprättar dokument i ett ordbehandlingsprogram såsom LibreOffice Writer eller Microsoft Word.
När medborgare skickar in PDF-dokument, Word eller ODT -dokument så kan PDF/A-1a vara att föredra, men likväl kan PDF/A-1b vara mer lämplig. Detta är en bedömningsfråga.
Vad är ”logisk struktur”, ”semantisk struktur” och ”metastruktur”?
Logisk struktur, semantisk struktur och metastruktur [strukturen] är likställda i det här sammanhanget, det vill säga, används som synonymer.
På liknande sätt som metadata används för att beskriva ett dokument så används strukturen för att beskriva dokumentets innehåll. Strukturen ska anges för att identifiera, exempelvis, vad i dokumentet som utgör rubrik, stycke, fotnot, tabell, bild, ord, förkortning, alternativa beskrivningar, eller i vilket språk en text är skriven. Ju högre ”finkornighet” desto bättre struktur får dokumentet.
Varför är överensstämmelsenivå ”a” (logisk-/semantisk-/metastruktur) viktigt?
Syftet med logisk-/semantisk-/metastruktur är att bevara meningen med dokumentets innehåll i syfte att i framtiden kunna använda och förstå dokumentet i dess ursprungliga mening.
Men man kan väl bara ”parsa” (programmatisk tolka) dokumentet om det finns ett behov?
Den logiska-/semantiska-/metastrukturen ska förhindra att man i framtiden genom, vad som nu anses vara komplicerade, algoritmer försöker tolka dokumentets innehåll.
Hur vi ser på ett dokument idag, dess innehåll och mening, kan förändras med tiden, vilka är mycket subjektiva redan från början. Det är därmed viktigt att tydligt ange vad alla beståndsdelar i ett dokument har för funktion och mening för att dokumentet i framtiden ska kunna återskapas utan otydlighet och ”subjektiva tolkningar” av en programmerare eller någon annan.
Hur skapar man PDF/A? Hur konverterar man till PDF/A? och Hur validerar man PDF/A?
Hur man framställer ett PDF/A -dokument hänger samman med hur man validerar ett PDF/A -dokument; vad utgör korrekt PDF/A?
Problemet är att det inte finns några objektiva kriterier för vad som är korrekt PDF/A, och därmed är alla framställningar av PDF/A en variation av PDF/A -specifikationen. Detta gäller PDF/A-1a såväl som PDF/A-1b.
Riksarkivet har prövat ett antal program för att skapa PDF/A-1a (se Praktisk PDF/A). Programmen var LibreOffice Writer 4.0 samt Microsoft Office Word 2003, och Word 2010. Andra program såsom Calc och Excel, har inte prövats. Medan Writer och Word 2010 har inbyggt stöd för PDF/A kräver Word 2003 ett externt program för att hantera konverteringen, vilket i detta fall utgjordes av Adobe Acrobat X Professional som konverterade Word 2003 dokument till PDF/A-1a. Adobe Acrobat X Professional och 3-Heights validator användes sedan för att validera resultatet av nämnda program.
Vår undersökning visade att dokument som konverterades till PDF/A-1a i Word 2003 (med hjälp av Acrobat X Pro), Word 2010 och Writer 4.0 valideras i Acrobat X Professional och 3-Heights validator med vissa undantag.
De undersökta programmen kunde skapa och konvertera funktioner som liknade eller motsvarade de funktioner som finns i PDF/A, men med vissa undantag.
Generellt så verkar de undersökta programmen producera samma resultat, men det finns begränsningar i inställningarna i programmen, och en del buggar. Begränsningarna kan innebära att man måste göra vissa saker i Word/Writer för att sedan komplettera arbetet i Adobe Acrobat. Det finns exempelvis inget stöd för att markera och ange ord i Word/Writer eller lägga till särskild metadata, vilket man istället får göra i Acrobat X eller något annat program. Informationsförlust vid konvertering påträffades också då informationen i ursprungsformatet inte konverterades korrekt till PDF/A, exempelvis, Word och Writer dokument har omfattande metadata -fält, men endast vissa av dessa överförs till PDF/A -dokumentet.
Det går emellertid inte att veta, utan att pröva, hur andra validatorer kommer att reagera på PDF/A-1a från Word eller Writer, vilket uppställer frågan vilken validator man ska utgå från, och därmed problematiken som nämndes i inledningen.
Kan vi använda PDF 1.5-1.7 för att skapa PDF/A-1?
PDF/A är en delmängd av PDF. Utgångspunkten för PDF/A-1 är PDF 1.4, men senare versioner av PDF (1.5, 1.6, 1.7) kan även användas under förutsättning att de uppfyller kraven i ISO 19005-1:2005, det vill säga, PDF/A (se exempelvis TechNote 0006: Digital Signatures in PDF/A-1, PDF/A Competence Center, 2008-03-14 s. 1).
Kan man redigera ett PDF/A-dokument?
Möjligheten att redigera ett PDF/A -dokument är beroende av vilken mjukvara som används. Om mjukvaran tillåter redigering så kan dokumentet redigeras. Exempelvis så låser ”Adobe Reader” som utgångspunkt ett dokument som hävdar att den är ”PDF/A”. Denna inställning går dock att ändra, se "Redigera > Inställningar > Dokument > PDF/A-visningsläge > Visa dokument i PDF/A-läge: = Aldrig", vilket "låser upp" dokumentet, och tillåter redigering. Vidare kan en användare som vet vad han eller hon gör, nog även alltid hitta ett sätt att redigera ett PDF/A -dokument.
Kan vi kryptera ett PDF/A-dokument?
PDF/A tillåter inte kryptering. Från ett digitalt bevarandeperspektiv är det inte rekommenderat att "låsa" eller kryptera ett dokument. Det rekommenderas istället att utgångspunken för autenticitet utgår från ett ”integritetsperspektiv”, det vill säga, säkerställa att dokumentet inte har manipulerats.
Hur säkerställer man autenticiteten av ett PDF/A-dokument?
PDF/A handlar i huvudsak inte om autenticitet. Ett PDF/A-dokument även om ”giltig”, ”korrekt” eller ”valid” är inte nödvändigtvis ”äkta” i någon särskild mening. Det vill säga att PDF/A i sig inte kan autentisera ett PDF/A dokument.
PDF/A kan emellertid tillåta funktioner för autentisering.
Den enklaste metoden är att helt enkelt att digitalt signera dokumenten (notera att detta involverar kryptering också, men inte av dokumentets innehåll). PDF/A-1 kan ha stöd för digitala signaturer (se TechNote 0006: Digital Signatures in PDF/A-1, PDF/A Competence Center, 2008-03-14 s. 1).
Det finns emellertid en del problem med långtidsbevarandet av digitala signaturer. Medan problemställningen inte är lämplig att närmare diskuteras här, se vidare Riksarkivets arbete om ”Elektroniska signaturer”, kan nämnas att ett problem är att digitala signaturer tillämpar kryptering, och därför lider av samma problem som långtidsbevarande av krypterad information i allmänhet.
Centralt för att säkerställa ett dokuments integritet är beräkningen av dokumentets ”hashvärde”, eller ”kondensat”. Det finns teoretiska modeller och praktiska system för hur man kan gå tillväga för att säkerställa ett dokuments integritet utan att använda ”digitala signaturer”, men dessa är bortom denna framställnings omfång.
Om jag sparar ett dokument som korrekt/giltig/valid PDF/A då är den väl bevarad för all framtid?
Om man antar att det går att skapa ett korrekt, giltigt eller ”valid” PDF/A -dokument så innebär det emellertid inte nödvändigtvis att dokumentet faktisk är ett acceptabelt PDF/A -dokument.
Ett PDF/A -dokument kan ses som att den består av två delar: ”tekniskt” och ”semantisk”.
Medan det finns vissa tekniska förutsättningar, som exempelvis omslutning av komponenter, som bevarar ett dokument visuellt och textuellt så handlar PDF/A emellertid lika mycket, om inte mer, om den kontextuella (för överensstämmelsenivå ”b” och ”a”), och semantiska informationen i dokumentet (överensstämmelsenivå ”a”).
Förenklat anges kontextuell och semantisk information i metadata respektive logisk struktur/metastruktur. Detta är något som kan, till en viss del, automatiseras, men vanligtvis saknas stöd för en sådan process, och kräver oftast manuell hantering och bedömning. Exempelvis, skapandet av den logiska strukturen kan automatiseras om man använder standardmallen i Word, men det finns inget som garanterar att användaren använt formaten i det syfte som formatet varit tilltänkt att användas och tolkas.
Medan kontextuell, som semantisk, information kräver en liknande process, så är bedömningen och frågorna något annorlunda.
Analys av handlingen
Vad som ska bevaras är en process, där värderingar måste göras om vad som utgör handlingen; en motsvarighet till handlingen efter konvertering och dess ursprungliga skick och mening.
Följande frågeställningar kan vara av intresse att diskutera:
- Vad är syftet med handlingen?
- Vilken informationstyp är handlingen?
- Går det att ta del av, och förstå, handlingens syfte eller ursprungliga skick, med hjälp av den semantiska information som redan finns i handlingen?, exempelvis,
- om visst innehåll/funktion förändras, förvanskats, förloras eller inte stöds efter konvertering?
- av någon som har en funktionsnedsättning, exempelvis någon som är blind?
- av någon som inte är lika insatt i språkbruket, både terminologi, sedvanliga ord och användningen av utländska ord, som används i handlingen?