Analyse af registerdata og store datamængder

Forskere skal kunne kombinere registerdata med meget store datamængder. KOR har derfor initieret et pilotprojekt, der skal vise, hvordan dette kan lade sig gøre, samtidig med at de myndigheder, der har ansvar for data, kan opretholde fuld kontrol med hvad data bliver brugt til.

KOR har initieret et projekt i samarbejde med Danmarks Statistik (DST), Computerome Center, DeiC og forskningsprojektet iPsych. Projektet skal gøre det muligt for forskere at analysere data fra DST registre i kombination med meget store genomiske datasæt, samtidig med at DST har fuld kontrol med hvordan data bliver brugt.

Stort potentiale for dansk forskning

Jeppe Klok Due fra KOR præsenterer projektet på DeiC konference om eScience i september 2017.
Foto: DeiC, Torben B. Sørensen

Dette vil i kombination med de unikke danske registre og biobanker kunne give dansk forskning mulighed for at lave undersøgelser, der ikke kan udføres andre steder i verden. Det vil udgøre et kvantespring i mulighederne for at studere samspillet mellem arv og miljø som årsager til sygdom, og kunne skabe ny viden, der ikke kan indhentes andre steder i verden.

En teknisk løsning på barrierer for registerforskning

KOR forventer, at projektet kan anvise tekniske løsning på nogle helt centrale barrierer for dansk forskning, og at den på sigt vil kunne bruges af alle myndigheder og organisationer, der har behov for at udlevere data til forskningen. Vi mener, at modellen kan give 1) forskerne de bedste muligheder for at analysere store datamængder fra flere forskellige dataansvarlige myndigheder, 2) de dataansvarlige myndigheder mulighed for at opretholde fuld kontrol over hvad ”deres” data bliver brugt til, 3) det højeste sikkerhedsniveau med de bedste beregningsfaciliteter og minimal dataspredning samt 4) mulighed for at samle investeringer og kompetencer.

Realiseringen af projektet

I praksis etablerer vi en sikker forbindelse mellem DST og Computerome. På Computerome får DST en ”private cloud”, hvor de kan kontrollere alt hvad der sker med data her, samt oprette deres eget sikkerhedsregime. Herfra vil DST kunne give brugerne mulighed for at få koblet data fra registrene med andre data, der også ligger på Computerome. Herved vil forskerne få mulighed for at benytte den fulde beregningskapacitet på Computerome til at analysere data fra de socioøkonomiske registre i kombination med genomiske data. DST vil have mulighed for at logge, kontrollere brugernes adfærd, præcis som det kræves af DST sikkerhedsprocedurer.

Proof of Concept

I efteråret 2017 gennemførte vi et Proof of Concept, hvor vi etablerede den sikre forbindelse mellem DST og Computerome. Der blev bygget private cloudmiljø, hvor DST etablerede og testede deres eget sikkerhedsregime. Danmarks Statistiks direktion gdkendte Proof of Concept og gav opbakning til at gennemføre en use case i 2018 med data fra iPSYCH.

Vores use case er iPSYCH der bl.a. ledes af Center for Registerforskning ved Aarhus Universitet. Det overordnede formål med iPsych er at undersøge årsagerne til de almindeligste psykiske lidelser. Datagrundlaget er genetiske oplysninger om 80.000 individer, som ønskes koblet til bl.a. DSTs registre.

Årsagen til at iPsych er udvalgt som use case er, at forskningsprojektet har et konkret behov for en sådan løsning, de har indvilliget i at lægge de nødvendige ressourcer i projektet i forbindelse med testning etc., samt at de allerede har de nødvendige tilladelser fra relevante myndigheder.

Læs artikel fra DeiC om projektet her