Niet gek laten maken door big data
Tim Harford is een van die relatief jonge Britse en Amerikaanse economen die het lukt om een breder publiek te interesseren voor onderwerpen die normaal gesproken in het academische blijven hangen. En dit zónder hierbij te populariseren op een manier die afbreuk doet aan het niveau van de inhoud. Maar gewoon door niet ‘moeilijker’ en gewichtiger te doen dan strikt genomen nodig is. En door niet terug te deinzen voor het gebruiken van verhelderende praktijkvoorbeelden uit het dagelijks economisch leven van normale mensen.
Twee bekende Amerikaanse namen zijn hier Steven Levitt, verbonden aan de University of Chicago, wereldwijd bekend geworden met zijn bestseller Freakonomics, uit 2005 alweer; en Tyler Cowen van George Mason University in Fairfax, Virginia. Tim Harford is een Engelsman, verbonden aan Oxford University, en brak – eveneens in 2005 – door naar een breed publiek met zijn boek The Undercover Economist, dat net als Freakonomics ook in het Nederlands is vertaald.
Ook is Harford prominent medewerker van The Financial Times, en afgelopen week publiceerde hij hierin een solide beschouwing met als titel ‘Big data: are we making a big mistake?’ Voor een flink deel ging dit over gezondheidszorg, en dat hoeft ook niet te verbazen. Want er gaat intussen geen dag meer voorbij of je wordt, ook hier in Nederland, geconfronteerd met weer een nieuwe voorspelling van de radicale verandering, en als het meezit ook verbetering, die big data voor de zorg zal betekenen. Maar ook met al echte voorbeelden hiervan.
Vaak hebben die laatste te maken met het verzamelen, wat technisch steeds makkelijker wordt, van enorme hoeveelheden gegevens over het feitelijk gedrag van personen – zowel patiënten als medische professionals. Die data kan je op allerlei manieren gebruiken. Om algemene trends en nieuwe inzichten uit te destilleren. Maar ook op concreet en individueel niveau. Zoals het signaleren dat een bepaalde arts veel meer dan collega’s een bepaald antibioticum voorschrijft, en hierdoor resistentie kan helpen bevorderen. Of zoals het registreren van het digitale spoor van diagnoses en valse alarms dat habituele bezoekers van (meerdere) SEH’s achterlaten, wat flink kan helpen besparen op onnodige onderzoeken en tests.
Dit soort dingen roept natuurlijk vragen op die je steeds zult tegenkomen bij het gebruik van persoonsgegevens en persoonsdossier; zoals, in deze voorbeelden, vragen over de autonomie van professionals en de privacy van burgers en patiënten. Maar dat is niet het onderwerp van het kritische Financial Times-artikel van Tim Harford. Dat focust op het vaak zo overdreven karakter van de inhóudelijke belofte van big data. Op de idee dat gewoon door maar voldoende massaal gegevens te verzamelen en daar dan wat algoritmes op los te laten, je ‘vanzelf’ waardevolle nieuwe inzichten krijgt in allerlei belangrijke causaliteiten. Zonder dat hierbij nog de hulp nodig is van, iets wat traditioneel veel meer moeite en tijd kost, een nieuwe theorie of verklaring.
Leest u vooral dat artikel zelf, alleen al doordat het ook een handzame en compacte cursus is ter opfrissing van uw kennis van elementaire statistiek. Harford focust op het voorbeeld van ‘Google Flu Trends’. Dit vijf jaar geleden gestarte project ambieerde om de geografische verbreiding van griep veel béter te voorspellen dan via meer gangbare technieken mogelijk is. Dit gewoon door na te gaan waar en hoe vaak internetgebruikers zoektermen invoeren die met griep te maken hebben.
Maar na een veelbelovende eerste begin, is nu gebleken dat Google Flu Trends er juist enorm naast kan zitten. Dit valt ook best te verklaren – en dat doet Tim Harford ook. Zonder dat hij hieruit de conclusie trekt dat big data helemaal geen toekomst heeft, of dat ‘theory-free analysis of correlations’ per definitie niets waardevols op kan leveren. Maar wel: dat we ons niet gek moeten laten maken; dat scepsis en geduld ook hier goede raadgevers zijn; en dat dé grote uitdaging nu is, om antwoorden op nieuwe vragen te vinden “without making the same old statistical mistakes on a grander scale than ever.”
2 reacties
Ik had van Flip Vuijsje wel een wat beter artikel verwacht dan dit stuk. In een nodeloos lange aanloop om vooral Tim Harford credits te geven wordt slechts herhaald wat niet alleen Harford maar tientallen anderen de afgelopen weken van elkaar hebben overgeschreven over de Google Flu Trends case.
De titel van deze column is dan ook nogal tendentieus en dat weet Flip vast ook wel maar het trekt de aandacht. En dat is nu vooral het probleem met al die artikelen over big data, iedereen denkt daar over te moeten meepraten zonder eerst zelf kennis op te doen, dat is weer te veel werk…. Het is verder ook wel erg makkelijk om een verband te leggen naar persoonsdata waar de zorgsector meteen van in een stuip schiet.
En een opmerking als “Op de idee dat gewoon door maar voldoende massaal gegevens te verzamelen en daar dan wat algoritmes op los te laten, je ‘vanzelf’ waardevolle nieuwe inzichten krijgt in allerlei belangrijke causaliteiten.” is niets anders dan anderen napraten die ook niet weten wat data analytics en data science nu inhoudt. Als Flip even de moeite genomen had wat literatuur te lezen dan wist hij dat bij big data analyses we ook kunnen zoeken naar correlaties die we vroeger onmogelijk konden vinden en niet meer alleen klassiek naar causale verbanden. En correlaties vinden is pas het begin van de juiste vraag stellen, vroeger had je die vraag waarschijnlijk nooit gesteld.
Kortom, laat u vooral niet gek maken door dit soort artikelen.
van Zanten
4 april 2014 / 22:31‘Even de moeite nemen’ is hier inderdaad het sleutelconcept. Even de moeite nemen om aandachtig en onbevangen te lezen wat ik écht schreef, en dan vaststellen dat ik niet ‘anderen napraat’, maar gewoon zo goed mogelijk probeer uit te leggen, omdat ik denk dat ook Nederlandse lezers dit misschien interessant zullen vinden, wat een auteur van grote internationale reputatie te melden heeft in de beste krant te wereld. En vooral ook even de moeite nemen, alvorens meteen in een ad-hominem-reflex te springen, om ook écht te lezen wat Tim Harford schrijft. En dan gewoon eerlijk vaststellen dat dit juist uitblinkt in breedheid van scope, in diversiteit van bronnen en geciteerde standpunten, en in nuance van conclusie.
Flip Vuijsje
6 april 2014 / 18:47