Analyse af registerdata og store datamængder

Forskere skal kunne kombinere registerdata med meget store datamængder. KOR har derfor initieret et pilotprojekt, der skal vise, hvordan dette kan lade sig gøre, samtidig med at de myndigheder, der har ansvar for data, kan opretholde fuld kontrol med hvad data bliver brugt til.

KOR har initieret et projekt i samarbejde med Danmarks Statistik (DST), Computerome Center, DeiC og forskningsprojektet iPsych. Projektet skal gøre det muligt for forskere at analysere data fra DST registre i kombination med meget store genomiske datasæt, samtidig med at DST har fuld kontrol med hvordan data bliver brugt.

Stort potentiale for dansk forskning

Jeppe Klok Due fra KOR præsenterer projektet på DeiC konference om eScience i september 2017.
Foto: DeiC, Torben B. Sørensen

Dette vil i kombination med de unikke danske registre og biobanker kunne give dansk forskning mulighed for at lave undersøgelser, der ikke kan udføres andre steder i verden. Det vil udgøre et kvantespring i mulighederne for at studere samspillet mellem arv og miljø som årsager til sygdom, og kunne skabe ny viden, der ikke kan indhentes andre steder i verden.

En teknisk løsning på barrierer for registerforskning

KOR forventer, at projektet kan anvise tekniske løsning på nogle helt centrale barrierer for dansk forskning, og at den på sigt vil kunne bruges af alle myndigheder og organisationer, der har behov for at udlevere data til forskningen. Vi mener, at modellen kan give 1) forskerne de bedste muligheder for at analysere store datamængder fra flere forskellige dataansvarlige myndigheder, 2) de dataansvarlige myndigheder mulighed for at opretholde fuld kontrol over hvad ”deres” data bliver brugt til, 3) det højeste sikkerhedsniveau med de bedste beregningsfaciliteter og minimal dataspredning samt 4) mulighed for at samle investeringer og kompetencer.

Realiseringen af projektet

I praksis etablerer vi en sikker forbindelse mellem DST og Computerome. På Computerome får DST en ”private cloud”, hvor de kan kontrollere alt hvad der sker med data her, samt oprette deres eget sikkerhedsregime. Herfra vil DST kunne give brugerne mulighed for at få koblet data fra registrene med andre data, der også ligger på Computerome. Herved vil forskerne få mulighed for at benytte den fulde beregningskapacitet på Computerome til at analysere data fra de socioøkonomiske registre i kombination med genomiske data. DST vil have mulighed for at logge, kontrollere brugernes adfærd, præcis som det kræves af DST sikkerhedsprocedurer.

Proof of Concept i efteråret

I dette efterår gennemfører vi et Proof of Concept, hvor vi etablerer forbindelsen og opbygger og tester det nødvendige cloudmiljø. Desuden foregår der et juridisk udredningsarbejde i DST. Efter nytår planlægger vi at gennemføre en use case med et konkret forskningsprojekt.

Use case i 2018

Vores use case er iPsych der bl.a. ledes af Center for Registerforskning ved Aarhus Universitet. Det overordnede formål med iPsych er at undersøge årsagerne til de almindeligste psykiske lidelser. Datagrundlaget er genetiske oplysninger om 80.000 individer, som ønskes koblet til bl.a. DSTs registre.

Årsagen til at iPsych er udvalgt som use case er, at forskningsprojektet har et konkret behov for en sådan løsning, de har indvilliget i at lægge de nødvendige ressourcer i projektet i forbindelse med testning etc., samt at de allerede har de nødvendige tilladelser fra relevante myndigheder.

KOR håber i løbet af 2018 at kunne tage flere use cases ind, men det afhænger af resultaterne samt finansieringsmulighederne. Vi vil informere om resultaterne af hhv. PoC og første use case når de er gennemført.

Finansiering

Projektet er finansieret af KOR med 0,3 mio. DKK og DeiC med 1,3 mio. DKK, læs KORs anmodning til DeiC om at indgå i samarbejder her

Læs artikel fra DeiC om projektet her