Niet gek laten maken door big data

Tim Harford is een van die relatief jonge Britse en Amerikaanse economen die het lukt om een breder publiek te interesseren voor onderwerpen die normaal gesproken in het academische blijven hangen. En dit zónder hierbij te populariseren op een manier die afbreuk doet aan het niveau van de inhoud. Maar gewoon door niet ‘moeilijker’ en gewichtiger te doen dan strikt genomen nodig is. En door niet terug te deinzen voor het gebruiken van verhelderende praktijkvoorbeelden uit het dagelijks economisch leven van normale mensen.

Twee bekende Amerikaanse namen zijn hier Steven Levitt, verbonden aan de University of Chicago, wereldwijd bekend geworden met zijn bestseller Freakonomics, uit 2005 alweer; en Tyler Cowen van George Mason University in Fairfax, Virginia. Tim Harford is een Engelsman, verbonden aan Oxford University, en brak – eveneens in 2005 – door naar een breed publiek met zijn boek The Undercover Economist, dat net als Freakonomics ook in het Nederlands is vertaald.

Ook is Harford prominent medewerker van The Financial Times, en afgelopen week publiceerde hij hierin een solide beschouwing met als titel ‘Big data: are we making a big mistake?’ Voor een flink deel ging dit over gezondheidszorg, en dat hoeft ook niet te verbazen. Want er gaat intussen geen dag meer voorbij of je wordt, ook hier in Nederland, geconfronteerd met weer een nieuwe voorspelling van de radicale verandering, en als het meezit ook verbetering, die big data voor de zorg zal betekenen. Maar ook met al echte voorbeelden hiervan.

Vaak hebben die laatste te maken met het verzamelen, wat technisch steeds makkelijker wordt, van enorme hoeveelheden gegevens over het feitelijk gedrag van personen – zowel patiënten als medische professionals. Die data kan je op allerlei manieren gebruiken. Om algemene trends en nieuwe inzichten uit te destilleren. Maar ook op concreet en individueel niveau. Zoals het signaleren dat een bepaalde arts veel meer dan collega’s een bepaald antibioticum voorschrijft, en hierdoor resistentie kan helpen bevorderen. Of zoals het registreren van het digitale spoor van diagnoses en valse alarms dat habituele bezoekers van (meerdere) SEH’s achterlaten, wat flink kan helpen besparen op onnodige onderzoeken en tests.

Dit soort dingen roept natuurlijk vragen op die je steeds zult tegenkomen bij het gebruik van persoonsgegevens en persoonsdossier; zoals, in deze voorbeelden, vragen over de autonomie van professionals en de privacy van burgers en patiënten. Maar dat is niet het onderwerp van het kritische Financial Times-artikel van Tim Harford. Dat focust op het vaak zo overdreven karakter van de inhóudelijke belofte van big data. Op de idee dat gewoon door maar voldoende massaal gegevens te verzamelen en daar dan wat algoritmes op los te laten, je ‘vanzelf’ waardevolle nieuwe inzichten krijgt in allerlei belangrijke causaliteiten. Zonder dat hierbij nog de hulp nodig is van, iets wat traditioneel veel meer moeite en tijd kost, een nieuwe theorie of verklaring.

Leest u vooral dat artikel zelf, alleen al doordat het ook een handzame en compacte cursus is ter opfrissing van uw kennis van elementaire statistiek. Harford focust op het voorbeeld van ‘Google Flu Trends’. Dit vijf jaar geleden gestarte project ambieerde om de geografische verbreiding van griep veel béter te voorspellen dan via meer gangbare technieken mogelijk is. Dit gewoon door na te gaan waar en hoe vaak internetgebruikers zoektermen invoeren die met griep te maken hebben.

Maar na een veelbelovende eerste begin, is nu gebleken dat Google Flu Trends er juist enorm naast kan zitten. Dit valt ook best te verklaren – en dat doet Tim Harford ook. Zonder dat hij hieruit de conclusie trekt dat big data helemaal geen toekomst heeft, of dat ‘theory-free analysis of correlations’ per definitie niets waardevols op kan leveren. Maar wel: dat we ons niet gek moeten laten maken; dat scepsis en geduld ook hier goede raadgevers zijn; en dat dé grote uitdaging nu is, om antwoorden op nieuwe vragen te vinden “without making the same old statistical mistakes on a grander scale than ever.”

Delen