Flera framsteg för avkodning av text i handskrivna material 

2019-11-11

Den 22 oktober anordnade Riksarkivet tillsammans med Digisam en workshop om Handwritten Text Recognition (HTR). Flera framsteg har gjorts de senaste åren. Bland annat har en programvara för HTR kallad Transkribus tagits fram inom det EU-finansierade projektet READ.

Utvecklingen inom HTR-området är betydelsefull för alla institutioner som håller stora mängder handskrivna källmaterial. Den leder till en ökning av mängden digitiserade bilder som blir sökbara och tillgängliga. Riksarkivet Finland, Jämtlands läns fornskriftsällskap och Uppsala universitet var inbjudna för att dela med sig av sitt arbete inom området.

Lovande resultat för ”Making a modern Archive”

Maria Kallio och Hanna Strandberg från Riksarkivet Finland har arbetat med domboksmaterial från 1800-talet i projektet ”Making a modern Archive”. Genom att mata programmet med manuellt transkriberade texter, omkring 1700 sidor från domböckerna, har träningsdata för en datamodell skapats. Programmet kan nu processa flera hundra tusen digitaliserade sidor från domböckerna. Resultatet från projektet är mycket lovande och redan nu går det att söka flera hundra tusen sidor. Maria och Hanna berättade att felprocenten för de maskinellt översatta texterna endast blir några procent.

Maria Kallio och Hanna Strandberg från Riksarkivet Finland 

Maria Kallio och Hanna Strandberg från Riksarkivet Finland

Transkribering görs av medlemmar

Jämtlands läns fornskriftsällskap använder sig av Transkribus för att maskinellt transkribera äldre handskrivna källor. Föreningens medlemmar transkriberar texterna manuellt och sedan använder programmet transkriberingarna för att tolka större textmängder. HTR är på så vis möjlig att kombinera med Crowdsourcing för att arbeta fram datamodeller för olika typer av texter och handstilar.

Maria Press Riksarkivet och Per Rejving Jämtlands läns fornskriftsällskap 

Per Rejving, Jämtlands läns fornskriftsällskap och Maria Press, Riksarkivet

Verktyg för Keyword spotting utvecklas

Anders Hast, vid institutionen för informationsteknologi på Uppsala universitet, berättade om arbetet med att ta fram verktyg och metoder för att kunna söka i handskrivna texter, så kallad Keyword spotting. De hoppas kunna utveckla enkla tekniker som gör sökningar möjliga utan behov av stora dataset. Flera tekniker och tillämpningar är under utveckling.

Vad händer framåt?

Workshoppen kommer att följas upp med en behovsinventering i form av en enkät om HTR och textresurser som riktas till minnesinstitutionerna.

Vad är HTR?

I likhet med OCR, som används för att digitaliserad tryckt text, är HTR en teknik som känner igen och avkodar texten i handskrivna källmaterial. Tekniken, som bygger på bildigenkänning och maskininlärning, är mycket kraftfull eftersom hela handskrivna texter kan bli översatta maskinellt.

Länkar

 

Frågor?

Kontakta Olof Karsvall, forskningsledare vid DAM-enheten på Riksarkivet.

Kontakt
Andrëa Grängsjö

Visa hela nyhetsarkivet