De dataschatkist van CID
Decennia aan data
Tekst: Peter de Jong
Illustratie: Maaike Putman
Zonder data geen wetenschap. Dataspecialist Otto Lange
zorgt ervoor dat de verzamelde onderzoeksgegevens ook vindbaar zijn voor andere wetenschappers.
De zes cohorten van het CID hebben de afgelopen decennia een enorme berg gegevens verzameld. Een belangrijke doelstelling van het CID is dat die data aan elkaar gekoppeld kunnen worden en dat andere wetenschappers hiervan kunnen profiteren. Aan het team van het project Connecting Data in Child Development (CD²) de taak deze schatkist zichtbaar te maken.
Dat is een hell of a job, want hoe breng je orde aan in decennia aan data? En hoe bouw je vervolgens een systeem waarin iedereen in staat is om die gegevens uit de CID-schatkist te vissen? Het toverwoord: metadata. Aan het woord is Otto Lange (1965), technisch coördinator van CD².
Wat moeten we ons voorstellen bij zo’n enorme zoekmachine?
‘Met onze online zoekmachine kunnen geïnteresseerde wetenschappers in de databanken zoeken van de zes CID-cohorten. De eerste stap was het in kaart brengen van alle gegevens die honderden onderzoekers hebben verzameld over de jaren. Die zijn vaak enorm gevarieerd. Elke discipline gebruikt eigen vaktermen en de data staat soms bekend onder verschillende noemers. Het was dus een hele klus. Daarna volgde het overleg over de zogenoemde metadata – de gegevens waaruit onze zoekcatalogus bestaan. Het CD²-project heeft uiteindelijk meer dan drie jaar geduurd en beschrijft de ontwikkelingsgegevens van 186.400 kinderen.’
Metadata? Wat is dat precies?
‘Metadata zijn beschrijvingen van data. Bij data kun je denken aan video’s, IQ scores, vragenlijsten, DNA-materiaal of hersenscans. Metadata zijn de karakteristieken van die data, bijvoorbeeld door wie zijn die data verzameld, en als onderdeel van welke studie? Het kan ook gaan om achtergrondinformatie over de deelnemers of het apparaat en de instellingen waarmee is gemeten. Eigenlijk zijn het dus data over data. Dit zijn belangrijke gegevens die je als wetenschapper wilt weten als je andermans data wilt hergebruiken. Het beschrijft ook onder welke termen deze gegevens nog meer bekend zijn, dit is met name belangrijk als je data wilt opzoeken.’
‘Metadata zijn beschrijvingen van data. Dat zijn belangrijke gegevens die je als wetenschapper wilt weten als je andermans data wilt hergebruiken.’
Kun je een voorbeeld geven?
‘Stel, een gedragswetenschapper uit Groningen doet onderzoek naar het sociaal welbevinden van Groningse pubers tijdens de covidpandemie, en is op zoek naar vergelijkingsmateriaal in de rest van Nederland. Om haar naar de juiste studies te leiden waar ze die data kan vinden, hanteren wij geharmoniseerde zoektermen – metadata dus. Dat houdt in dat wij, in samenspraak met de wetenschappers die de gegevens hebben verzameld, voor alle cohorten eenzelfde begrippenarsenaal aanhouden over kinderontwikkeling. Er moet overeenstemming zijn over wat we allemaal onder mentale gezondheid scharen: niet alleen depressie of angststoornis, maar wellicht ook blijdschap, veerkracht, noem maar op. Zo krijgt de Groningse onderzoeker te zien welke gerelateerde gegevens in de verschillende cohorten is verzameld. Vervolgens kan ze nog op allerlei aspecten filteren, bijvoorbeeld leeftijd van de deelnemers of jaartal waarin de data verzameld is – handig als je bijvoorbeeld alleen de gegevens van pubers wilt tijdens de coronacrisis.
In de zoekmachine zal de Groningse onderzoeker wellicht – ik verzin het nu even – een link vinden naar sombere pubers in de RADAR-studie of veerkrachtige adolescenten in het Generation R-project. Voor het opvragen van de daadwerkelijke data zal ze daarna moeten aankloppen bij de databeheerders van RADAR en Generation R.’
Is dat niet omslachtig?
Hij lacht: ‘Nóg wel, ja. In de toekomst hopen we dit te koppelen aan datauitgifte-portals, zodat je via onze zoekmachine ook meteen bij de daadwerkelijke data kunt komen. YOUth en L-CID zijn hier ook al hard mee bezig, dus dit komt eraan. De eerste belangrijke stap is dat je de gegevens überhaupt kunt vinden, daarna volgt het vrijgeven van die data. Wat dit laatste moeilijker maakt is dat het gaat om gevoelige gegevens van kinderen. Je moet er niet aan denken dat hackers, om wat voor reden dan ook, aan de haal gaan met kindgegevens. Alle mogelijke risico’s moeten we uitsluiten.’
‘Je moet er niet aan denken dat hackers, om wat voor reden dan ook, aan de haal gaan met kindgegevens. Alle mogelijke risico’s moeten we uitsluiten.’
Hoe gaat het nu verder?
‘Om de CID-data zoveel mogelijk te ontsluiten, koppelen we onze catalogus met ODISSEI, het landelijke dataplatform voor de sociale wetenschappen. Daarin staan nog veel meer metadata, ook over data van het Centraal Bureau voor de Statistiek. Dat levert grote mogelijkheden op voor onderzoekers. Andere metadatasystemen in de wereld, zoals het Europese CESSDA, kunnen onze metadata straks ook ophalen. Je ziet dat er op dit moment veel ontwikkelingen zijn op dit gebied. Zo leren we van elkaar en kunnen we als netwerk steeds verder groeien.’
Je werkt vanaf het begin van het computertijdperk in de informatica. Hoe staat het met de hoeveelheid beschikbare wetenschappelijke data?
‘Die is geëxplodeerd. Het is alleen de vraag in hoeverre daarvan gebruik gemaakt wordt. Dat kan nog wel beter, is mijn indruk. Veel onderzoekers zijn van nature primair gericht op hun eigen onderzoek en hebben vaak de neiging zelf nieuwe gegevens te gaan verzamelen. Dat is jammer, want misschien is er al iets waarmee jij je voordeel kunt doen. Wanneer je iets te weten wilt komen over de sociale effecten van lockdowns op kinderen, dan is het goed om te weten dat er gedurende de pandemie al bruikbare gegevens verzameld zijn. Samen kun je meer dan alleen, je moet elkaar alleen weten te vinden.’
Otto Lange is lid van het CD²-team en metadata-expert bij de universiteitsbibliotheek van de Universiteit Utrecht.
Dit artikel maakt deel uit van een speciale uitgave van New Scientist over het Consortium on Individual Development, die in september 2023 zal verschijnen.