I likhet med andra nationalarkiv, nationalbibliotek och kulturminnesinstitutioner så förvarar Riksarkivet en mängd handskrivet historiskt material som är av stort intresse för forskningen. Hos oss finns mer än 75 hyllmil arkivhandlingar och en stor del av informationen är handskriven.
Handwritten Text Recogniction
Länge var framgångsrik maskinell läsning av handskrift något av en utopi. Men de senaste årens utveckling inom AI-fältet har skapat nya möjligheter att omvandla handskrift till digital text. Denna teknik benämns ofta Handwritten Text Recogniction (HTR) och kan göra texter fullt sökbara och öppna för nya användningsområden och forskningsfält.
Forskningsinfrastrukturen Huminfra
Riksarkivet har deltagit i flera forskningsprojekt som syftar till att undersöka hur HTR-teknik kan användas inom myndigheten. I ett pågående projekt involveras medborgare i processen att skapa och tillgängliggöra arkiv med hjälp av AI. Arbetet med HTRFLOW bygger vidare på de tidigare projekten, och är ett bidrag till forskningsinfrastrukturen Huminfra som finansieras av Vetenskapsrådet.
Tolkning av texter 1650–1900
HTRFLOW är en interaktiv steg-för-steg demonstration som visar hur man kan omvandla historiska, skannade handskrivna dokument till digital, sökbar text. Systemet vi har tagit fram fungerar för löptextdokument med handskrift skapade cirka 1650–1900.
Stora möjligheter
HTRFLOW visar på de otroliga möjligheter som denna teknik erbjuder. Material som tidigare endast varit tillgängligt för experter som vet precis vart dom ska leta och hur handstil ska tolkas blir nu tillgängligt på ett helt annat sätt. Med en knapptryckning kan svårlästa historiska dokument omvandlas till maskinläsbara data. Det möjliggör datadriven forskning med fokus på helt nya frågor i omfattande handskrivna informationsmängder.
En teknik som alla kan använda
HTRFLOW baseras på öppen källkod, vilket innebär att vem som helst kan använda den och anpassa den efter sina egna behov. Dessutom kommer all data att göras tillgänglig för nedladdning och användning. Även själva AI-modellerna som vi tagit fram, som gör denna process möjlig, är fritt tillgängliga, och kan användas av alla på vilket sätt de vill.
Vad händer härnäst?
Förhoppningsvis kan Riksarkivet i en snar framtid även erbjuda storskalig HTR-tolkning av arkivhandlingar. Målet är att kunna HTR-analysera så mycket som möjligt av det material vi har och som bedöms vara av intresse för forskningen.
Riksarkivet arbetar hårt för att göra vår skrivna historia mer tillgänglig för alla. Gabriel Borg, data scientist vid Riksarkivet som har arbetat med utvecklingen av HTRFLOW, säger att vi kan förvänta oss fler spännande nyheter framöver!
Skärmklipp från HTRFLOW.
Här hittar du HTRFLOW:
https://huggingface.co/spaces/Riksarkivet/htr_demo
Läs om Riksarkivets projekt med HTR+AI+Medborgarforskning:
https://riksarkivet.se/Nyhetsarkiv?item=117216
Läs mer om Huminfra här:
https://www.huminfra.se/
HTRFLOW – a new demo for transcribing handwritten documents
The Swedish National Archives are excited to announce HTRFLOW, an interactive HTR-demo showcasing an end-to-end pipeline for transcribing Swedish running-text handwritten documents.
The HTR-model is trained on a vast range of transcribed Swedish document images ranging from the 17th to the 19th century. It gets high out-of-the-box accuracy on "new" material within these constraints.
HTRFLOW is designed to provide users with a step-by-step visualization of the HTR-process, and offer non-expert users an inside look into the workings of an AI-transcription pipeline.
At the moment HTRFLOW is mainly a demo-application. It’s not intended for production, but instead to showcase the immense possibilities that HTR-technology is opening up for cultural heritage institutions around the world.
All code is open-source, all our models are on Huggingface and are free to use, and all data will be made available for download and use.
– The Swedish National Archives are on a path to revolutionize access to our written history. Expect more to come! Says Gabriel Borg, who has been working with this new demo.
Links to demo, code, data and models:
https://github.com/Riksarkivet/HTRFLOW
https://huggingface.co/Riksarkivet