Syfte och bakgrund

Idag finns miljontals med bilder på digitaliserade handskrivna arkivmaterial. Men det digitala materialet kommer sannolikt inte att främja ny forskning och kunskap om inte innehållet transkriberas. För tryckt material finns det automatiserade processer s.k. Optical Character Recognition (OCR) som möjliggör produktion av maskinläsbar text i anslutning till digitaliseringsprocessen. För handskrivet källmaterial saknas utvecklade metoder för storskalig och automatiserad transkribering. Möjligheten till fördjupning, jämförelser och större bearbetningar (data-driven forskning) på handskrivna material är därför begränsad. Inom fältet bildigenkänning och maskininlärning har det dock under senare år utvecklats tekniker som möjliggör automatiserad handskriftstolkning, vanligen benämnt Handwritten Text Recognition (HTR). Kulturarvsintuitionerna i Sverige saknar idag resurser och kompetenser för att utveckla egna sådana tekniker och behöver samarbeta med andra aktörer för att komma vidare. Detta projekt går ut på att pröva och utvärdera hur tekniker inom fältet HTR kan användas mot handskrivna arkivmaterial inom Riksarkivet. Projektet kommer att utföras i nära samarbete med organisationen READ-COOP SCE som ansvarar för den AI-teknik som projektet kommer att nyttja.

Mål

Projektet har två mål: För det första, att skapa träningsdata och modeller med tekniken Handwritten Text Recognition (HTR). För det andra, att utveckla en prototyp för hur maskinellt tolkade texter kan tillgängliggöras för användare via Riksarkivets webbtjänster.

Förväntade effekter och resultat

En stor mängd handskrivna dokument blir tillgängliga och sökbara för forskningen och allmänheten på ett mer innehållsrikt och avancerat sätt än idag. Detta öppnar för storskaliga textanalyser. Samband och sammanhang som tidigare gått forskningen förbi kan upptäckas. Arkivanvändningen breddas och fördjupas, och ärendehandläggningen effektiviseras. Målsättningen är att integrera HTR i Riksarkivets digitaliseringsprocess. Ett vidare mål är att få erfarenheter om hur crowdsourcing och HTR kan kombineras.

Planerat upplägg och genomförande

Projektet genomförs i två steg: Först skapas träningsdata och HTR-modeller som sedan genererar översatta texter. Därefter utvecklas en webbtjänst (demo) som tillhandahåller bilder, texter och tillhörande information. HTR-modellerna kommer att skapas i plattformen Transkribus. Detta innebär manuell transkribering, segmentering och annan databehandling. De färdiga filerna överförs sedan till Riksarkivets publika söksystem, som anpassas för att kunna hantera den nya informationen.

Om projektet

Projektet pågår under 2020–2021 med stöd från Vinnova inom satsningen Starta er AI-resa!

För vidare information, kontakta projektledare Olof Karsvall. olof.karsvall[at]riksarkivet.se, 010-476 71 86.

I anslutning till projektet sker en satsning på Citizen Science, där medborgare bjudits in för att delta genom att transkribera och skapa träningsdata. Detta sker i samarbete med GPS400 – Centrum för visuell samverkande forskning vid Göteborgs universitet som finansierat skanningen av polisrapporter från Detektiva polisen i Göteborg 1868-1902 som kommer att HTR-tolkas inom projektet.

Se även: Flera framsteg för avkodning av text i handskrivna material - workshop på Riksarkivet 2019

Ansvarig för sidan/kontakt 
Olof Karsvall