Hvordan laver vi MGR?

Det er ikke en triviel opgave at lave et register over historiske familierelationer, projektet har samlet nogle af landets bedste eksperter indenfor Artificial Intelligence, registerforskning og arkiv, der vil løse opgaven sammen. Nedenfor er en overordnet beskrivelse af hvilke opgaver projektet indeholder.

Kildedata

MGR skal baseres på kirkebøger fra hele Danmark fra perioden 1920-1968 både kirkebøger for fødte, døde og viede skal indgå i registret. Næsten alle kirkebøgerne fra perioden 1920-1960 er scannet af Rigsarkivet og ligger frit tilgængeligt på Rigsarkivets hjemmeside Arkivalier Online. Hertil kommer scanning af kirkebøgerne 1960-1968, der skal bruges til at danne MGR, samt kirkebøgerne fra 1968-1980, der skal bruges til træningsdata, se nedenfor.

I alt skal der scannes 8500 kirkebøger. Dette bliver gjort af Rigsarkivets afdeling for Retrodigitalisering i Viborg, arbejdet skal udføres i år 2021 af ti professionelle scanningsoperatører.

Automatisk Transskribering

Kirkebøgerne er struktureret i samme kolonner i perioden 1920-1980 og indholdet er meget ensartet og består af navne og datoer, hvilket gør det oplagt at udvikle algoritmer, der kan forudsige, hvad de snirklede håndskrifter betyder. Københavns Universitets Center for Artificial Intelligence er verdensførende inden for felterne Natural Language Processing og Machine Learning, og de skal i løbet af 2021-2024 udvikle algoritmer, der kan oversætte billeder af kirkebøgerne til datafiler.

Udgangspunktet i udviklingen af algoritmer er enorme mængder træningsdata, som computerne skal bruge til at lære at genkende navne og tal. Træningsdata består af kombinationen af et billede og den præcise gengivelse af den tekst der står på billedet. MGR projektet bruger flere forskellige træningsdatasæt. For det første har projektet et stort datasæt af manuelt, transskriberede kirkebøger, som KOR fik udarbejdet til et pilotstudie. For det andet bruger projektet en kombination af billeder fra kirkebøgerne koblet med information fra CPR-registret. Dette kan etableres ud fra identifikation af fødselsdato, fødesogn og køn fra kirkebøgerne (denne kombination er unik for ca. 70% af individerne), hvorved en fødselsangivelse fra en kirkebog kan linkes direkte med de identiske, digitale oplysninger i CPR-registret. Endelig skal projektet have udarbejdet nye manuelt transskriberede træningsdata.

Denne del af projektet ledes af professor Anders Søgaard med bidrag fra professor Christian Igel bistået af tre ph.d. studerende og tre post.docs. Algoritmerne udvikles i open source, så de kan bruges af andre, når projektet er færdigt.

Linking af individer

Når kirkebøgerne er oversat til digitale datafiler skal Aarhus Universitets Center for Registerforskning linke identiske individer fra kirkebøger med CPR-registret.

I kirkebøger over fødte vil der være identifikationsoplysninger om både den fødte og dennes forældre. Ved at identificere først oplysninger om den fødte i kirkebogen med tilsvarende individ i CPR og dernæst gøre det samme ud fra oplysninger om den fødtes forældre, vil vi kunne danne familierelationer for de personer, der har fået et CPR-nummer. Hvis dette gøres for hele befolkningen, vil vi også få dannet relationer mellem alle børn, søskende og forældre.

For at komme tilbage til generationerne før CPR, gentages øvelsen ved at sammenkoble oplysninger fra ældre fødselsregistreringer med de personer, der i første omgang er identificeret som forældre til et barn i CPR og så fremdeles.

Individer som ikke kan identificeres, skyldes enten udvandring, fejl i transskribering af kildematerialet, ukendt faderskab eller problemer med de metoder, der anvendes til identifikation. Dette undersøges bl.a. ved at sammenkoble disse personer med oplysninger i Dødsårsagsregistret eller kirkebøger over døde. Når de kan identificeres som døde, er der endeligt styr på familierelationen i et MGR.

Denne del af projektet ledes af professor Carsten Bøcker Pedersen bistået af flere datamanagere fra Center for Registerforskning.

Use cases

Projektet afsluttes med to use casses, der skal teste hhv. projektets metoder på andre historiske datakilder samt anvende data i et konkret forskningsprojekt.

Rigsarkivet vil teste metoderne på andre kildetyper fx Jordmoderprotokoller eller epikriser/udskrivningsbreve fra patientjournalerne. Jordmoderprotokollerne skal bruges til at undersøge mulighederne for at danne et medicinsk fødselsregister for perioden 1920-1973, dette register vil indeholde oplysninger om fødselsvægt og –længde, svangerskabsperiode etc. Epikriserne skal digitaliseres for at forsøge at danne et register der minder om Landspatientregistret med diagnoser, sygehuskontakter  etc.

Center for Registerforskning vil teste data fra MGR i et studie om arvelighed af skizofreni. Her vil de gennemføre identiske studier, hvor der anvendes familierelationer udtrukket fra hhv. CPR-registret og MGR, for at dokumentere de nye muligheder med MGR. Denne use case vil også udvikle en algoritme, der kan danne et slægtsskabsregister ur fra MGR, den ledes af professor Esben Agerbo.

Adgang og anvendelse

Data vil blive tilgængelige for forskere ud fra databeskyttelseslovens bestemmelser, privatpersoner kan søge om adgang til oplysninger om sig selv i Rigsarkivet efter arkivlovens bestemmelser.