Data science is een relatief nieuw vakgebied dat een grote bijdrage aan de gezondheidszorg levert. Maar wat houdt het werk precies in? Mede dankzij snelle ontwikkelingen op het gebied van informatietechnologieën beschikken universitair medische centra over grote hoeveelheden gezondheidsgegevens: data. Het wordt alleen steeds lastiger om in deze verzamelde data waardevolle informatie te vinden. Dat is waar een data scientist om de hoek komt kijken. Kai van Amsterdam is inmiddels dertien jaar werkzaam als data scientist in het UMCG en vertelt in deze blogpost meer over het werk van een data scientist in de gezondheidszorg.

Sinds 2009 ben ik werkzaam als data scientist bij de afdeling Anesthesiologie in het UMCG. Dit sluit heel goed aan bij mijn achtergrond in kunstmatige intelligentie. Het werk van een data scientist is voor veel mensen onbekend gebied. Het is misschien niet een beroep waar je op feestjes goed mee scoort, maar het is in mijn opinie wel een belangrijke schakel in de onderzoekscyclus. Helemaal in deze tijd, waar het vergrootglas steeds meer op correctheid van data wordt gelegd.

Anesthesiologie is als één van de grootste afdelingen van het ziekenhuis betrokken bij een groot deel van alle UMCG-patiënten. Er zijn vijf onderzoeksgroepen die allemaal met een andere bril kijken naar benodigde data voor onderzoek. Voor onze zorg, evaluatie en onderzoek putten we uit data vanuit diverse bronnen, in meerdere frequenties en verschillende gradaties van “netheid”. 

Ons team opereert volgens een duidelijke visie: raadpleeg liever de expert en vind niet zelf het wiel opnieuw uit. Deze visie gaat ook op als het gaat over data. We vinden dat de onderzoeker zich vooral moet richten op zijn/haar kerntaak: het leveren van zorg en onderzoek. Onderzoekers zijn vaak niet geschoold in het omgaan met complexe datastromen en verkijken zich op de fouten die je als mens onherroepelijk gaat maken in de analyses. En ja, artsen zijn ook mensen. Ik vergelijk het altijd met het geven van anesthesie. Je kunt mij misschien leren om een patiënt te prikken, maar dat maakt me nog geen anesthesioloog. 

Onderstaand diagram geeft mooi weer in welke gebieden een data scientist opereert. Ik wil enkele gebieden graag kort beschrijven in de volgorde waarin ze in mijn werk vaak voorbijkomen.

(Bron: Data science partners)

Academisch onderzoek

Een datavraag begint met de voorbereiding van wetenschappelijk onderzoek. Na goedkeuring van het onderzoek, in samenspraak met de research coördinator, komen onderzoekers bij mij om een dataplan op te stellen. Hierin bekijken we of dit exact de data is om zijn/haar vraag te beantwoorden. We brengen in kaart uit welke databases de data moet komen en in welke vorm deze opgeleverd moet worden. Data voor anesthesie-onderzoek komt vaak vanuit verschillende soorten meetapparatuur, zoals pompen, ventilatoren en vitale parameter monitoren. Soms betekent dit dat er specialistische software gemaakt moet worden om nieuwe apparatuur uit te lezen. Ook dit is een belangrijk deel van mijn werkzaamheden in samenwerking met Medische Techniek.

Business kennis / domeinkennis

Tijdens een gesprek met de onderzoeker is het van belang dat ik ook enige basiskennis heb van het vakgebied anesthesiologie. Dit helpt me meedenken over de wijze waarop de data verzameld gaat worden, of er rekening gehouden moet worden met bepaalde onzuiverheden in de data en uiteindelijk in welke vorm de data teruggekoppeld moet worden aan de onderzoeker. Domeinkennis is onmisbaar bij het koppelen van de juiste data aan de vragen die de onderzoeker wil beantwoorden. 

Data ontsluiting en verwerking

Nadat is vastgelegd welke data er precies ontsloten moet worden, is het zaak om de brondata te ’locken’. Dit betekent dat er besloten wordt dat de ontsloten data, de data is waarop de analyses zullen worden gedaan. Er komt dan geen data meer bij. Gevalideerde algoritmen extraheren de benodigde data en elke stap in dit proces wordt vastgelegd. Hierdoor kan bij een eventuele audit later precies getoond worden hoe de extractie van de brondata heeft plaatsgevonden. Deze validatie kan plaatsvinden in alle stappen van brondata tot uiteindelijke publicatie. Op deze manier is het onmogelijk om met de data te frauderen en wordt het maken van fouten tot een minimum beperkt. 

Wiskunde, Statistiek en…..Ethiek

Van tevoren wordt vaak afgesproken of de onderzoeker zelf de analyse gaat doen of dat ik dit voor mijn rekening neem. Vooral bij de meer complexe datavragen is het vaak efficiënter om de analyse door de data scientist te laten doen. Dit verkleint de kans op fouten, vergroot de herhaalbaarheid en zorgt ervoor dat we in parallel kunnen werken.

In de fase van analyse vindt er veel overleg plaats met de onderzoekers. Na extractie begin ik altijd met het visualiseren van alle data. Als er op het oog te zien is wat we verwachten, gaan we verder met het uitvoeren van statistische tests. Tijdens deze stappen kan ik minder gebruik maken van gevalideerde methoden, aangezien iedere onderzoeksvraag weer een andere aanpak vergt. Voor elk onderzoek maak ik een specifiek algoritme met visualisaties/tests. Deze methoden gaan vanaf dat moment deel uitmaken van de dataset. Zo kan achteraf altijd gecontroleerd worden welke stappen genomen zijn om tot de eindconclusie te komen.

Zoals eerder gezegd is domeinkennis erg belangrijk, maar toch is het de uitdaging om ook niet te veel domeinkennis te hebben. De uitdrukking “Ignorance is bliss” uit de film The Matrix gaat ook in mijn werk als data scientist op. Ik probeer geen enkel waardeoordeel te hebben over de daadwerkelijke uitkomst van het onderzoek. Ik ben slechts de boodschapper van het (soms) slechte nieuws. Volgens goed wetenschappelijk principe moet de academische cyclus dan weer opnieuw beginnen, hoe moeilijk dat soms ook is. Het is mijn taak om me zo strikt mogelijk aan het dataplan te houden. Dit alles om zogenaamde fishing-experiments te voorkomen. 

Het motto van ons team luidt dan ook: de data = de data.