Ny banbrytande AI-modell för svenska historiska texter 

2024-02-07

Riksarkivet kan idag presentera en AI-modell som kan tolka handskrivna texter på svenska från 1600-, 1700- och 1800-talen och uppnå en imponerande noggrannhetsgrad på 95%. For information in English: scroll further down.

Ett stort steg framåt

Denna innovativa modell, kallad "The Swedish Lion I", har tränats med hjälp av data från texter som omfattar 3,3 miljoner textrader och totalt 15,6 miljoner ord.

– Nu blir det möjlighet att maskintolka och tillgängliggöra digitaliserade arkiv, flera miljoner ovärderliga handskrivna dokument kan tolkas med modellen. Möjligheterna som detta framsteg ger oss kan inte överskattas, berättar Olof Karsvall, forskningsledare på Riksarkivet och en av skaparna av den nya AI-modellen.

Samarbete har gett resultat

AI-modellen är resultatet av ett samarbete mellan Riksarkivet i både Sverige och Finland, som arbetat tillsammans med Stockholms stadsarkiv, Jämtlands läns fornskriftsällskap, medborgarforskare och forskare från Stockholms och Uppsala universitet.

Anpassningsbar basmodell

"The Swedish Lion I " är en basmodell som lätt kan finjusteras för än mer exakta tolkningar av praktiskt taget alla arkiv och olika typer av handskrivna dokument.

Modellen är nu tillgänglig via Transkribus som tillhandahålls av READ-COOP (ett samarbete som omfattar mer än 100 olika europeiska aktörer inom handskriftstolkning). Dessutom kommer Riksarkivet inom kort att släppa en fristående version som är baserad på öppen källkod.

Läs mer om "The Swedish Lion I"

Olof Karsvall. Fotograf Emre Olgun
Olof Karsvall, forskningsledare i Riksarkivet. Fotograf: Emre Olgun.
 

Introducing a Cutting-edge AI Model for Swedish Historical Texts

We are excited to present an AI model capable of accurately interpreting handwritten texts in Swedish from the 17th, 18th, and 19th centuries, achieving an impressive accuracy rate of 95 %.

This innovative model, named "The Swedish Lion I" has been trained using an extensive dataset of transcribed texts, encompassing 3.3 million text lines and a total of 15.6 million words.

− The significance of this advancement cannot be overstated; It enables us to machine-interpret and make digitized archives available, totaling millions of invaluable records,  tells Olof Karsvall, Research Manager at the National Archives of Sweden and one of the creators of the new AI-model.

This AI model is the result of a collaborative effort, involving the National Archives in both Sweden and Finland, in partnership with the Stockholm City Archives, Jämtlands läns fornskriftsällskap, citizen science volunteers and researchers from Stockholm and Uppsala Universities.

"The Swedish Lion I" provides a fundamental framework that can be readily fine-tuned for precise interpretation of virtually any archive and various types of handwritten manuscripts.

Accessible through the Transkribus platform provided by READ-COOP, this model is now available for use. Additionally, a standalone version, based on open-source code, will be released shortly through the Swedish National Archives, further enhancing accessibility and usability.

Find out more about how this model was created on the READ-COOP website:
https://readcoop.eu/success-stories/creating-the-swedish-lion-%e2%85%b0-model/

Get more information about how the model can be used in Transkribus:
https://readcoop.eu/model/the-swedish-lion-i/

Access the National Archives' open models for handwritten text recognition:
https://huggingface.co/Riksarkivet

Visa alla nyheter