Analyse af registerdata og store datamængder

Forskere skal kunne kombinere registerdata med meget store datamængder. KOR har derfor initieret et pilotprojekt, der skal vise, hvordan dette kan lade sig gøre, samtidig med at de myndigheder, der har ansvar for data, kan opretholde fuld kontrol med hvad data bliver brugt til.

KOR har initieret et projekt i samarbejde med Danmarks Statistik (DST), Computerome Center, DeiC og forskningsprojektet iPSYCH. Projektet skal gøre det muligt for forskere at analysere data fra DST registre i kombination med meget store genetiske datasæt, samtidig med at DST har fuld kontrol med hvordan data bliver brugt.

Status for projektet

I slutningen af 2018 lagde DST krypterede kopier af relevante registre på Computerome, hvor forsknignsgrupppen kunne få adgang til register-data.

I starten af 2019 er registerdata blevet koblet med genetiske data fra iPSYCH kohorten.

Forskerne har test simple ting så som beregning af polygenic scores, og er klar til at udfordre setuppet endnu mere, så de kan få glæde Computeromes enorme beregningskapacitet.

I de kommende måneder vil DST, iPSYCH, DeiC, Computerome Center og KOR evaluere denne use case. Senere håber vi at kunne udbrede muligheden for andre forskningsprojekter.

Læs om projektet samt hvilke muligheder det giver forskningskonsortiet iPSYCH i præsentationen fra KOR og DFFs konference novmeber 2018 her

Stort potentiale for dansk forskning

Jeppe Klok Due fra KOR præsenterer projektet på DeiC konference om eScience i september 2017.
Foto: DeiC, Torben B. Sørensen

Dette vil i kombination med de unikke danske registre og biobanker kunne give dansk forskning mulighed for at lave undersøgelser, der ikke kan udføres andre steder i verden. Det vil udgøre et kvantespring i mulighederne for at studere samspillet mellem arv og miljø som årsager til sygdom, og kunne skabe ny viden, der ikke kan indhentes andre steder i verden.

En teknisk løsning på barrierer for registerforskning

KOR forventer, at projektet kan anvise tekniske løsning på nogle helt centrale barrierer for dansk forskning, og at den på sigt vil kunne bruges af alle myndigheder og organisationer, der har behov for at udlevere data til forskningen. Vi mener, at modellen kan give 1) forskerne de bedste muligheder for at analysere store datamængder fra flere forskellige dataansvarlige myndigheder, 2) de dataansvarlige myndigheder mulighed for at opretholde fuld kontrol over hvad ”deres” data bliver brugt til, 3) det højeste sikkerhedsniveau med de bedste beregningsfaciliteter og minimal dataspredning samt 4) mulighed for at samle investeringer og kompetencer.

Realiseringen af projektet

I praksis har vi etableret en sikker forbindelse mellem DST og Computerome. På Computerome har DST en ”private cloud”, hvor de kan kontrollere alt hvad der sker med data her, samt oprette deres eget sikkerhedsregime. Herfra kan DST give brugerne mulighed for at få koblet data fra registrene med andre data, der også ligger på Computerome. Herved får forskerne mulighed for at benytte den fulde beregningskapacitet på Computerome til at analysere data fra de socioøkonomiske registre i kombination med genetiske data. DST kan logge og kontrollere brugernes adfærd, præcis som det kræves af DST sikkerhedsprocedurer.

Proof of Concept

I efteråret 2017 gennemførte vi et Proof of Concept, hvor vi etablerede den sikre forbindelse mellem DST og Computerome. Der blev bygget private cloudmiljø, hvor DST etablerede og testede deres eget sikkerhedsregime. Danmarks Statistiks direktion gdkendte Proof of Concept og gav opbakning til at gennemføre en use case i 2018 med data fra iPSYCH.

Vores use case er iPSYCH der bl.a. ledes af Center for Registerforskning ved Aarhus Universitet. Det overordnede formål med iPsych er at undersøge årsagerne til de almindeligste psykiske lidelser. Datagrundlaget er genetiske oplysninger om 80.000 individer, som ønskes koblet til bl.a. DSTs registre.

Årsagen til at iPSYCH er udvalgt som use case er, at forskningsprojektet har et konkret behov for en sådan løsning, de har indvilliget i at lægge de nødvendige ressourcer i projektet i forbindelse med testning etc., samt at de allerede har de nødvendige tilladelser fra relevante myndigheder.

Læs artikel fra DeiC om projektet her