Column O. Naphta

Big Data
Het is nog niet zo eenvoudig te vertalen: big data. ‘Grote getallen’, zei iemand. Neem 600 miljard, een groot getal, maar niet meer dan één gegeven. ‘Eén data’ wordt tegenwoordig met hetzelfde foute gemak gezegd, dat ook ‘de media heeft’ voortbrengt. In de wereld van de big data is men onder meer de weg in de taalkundige enkel- en meervoudsvormen kwijt.

 

De euforie waardoor sommigen bevangen lijken, doet me herinneren aan de systeemhype van omstreeks 1970. In luttele jaren kwam er literatuur op de planologische markt met lange cijferreeksen en uitbundige, wiskundig aandoende statistische formules. Menige bladzijde stond vol cirkels, vierkanten en soortgelijke meetkundige vormen waartussen een wirwar van pijlen de samenhang van alles suggereerde: functionele betrekkingen, wederzijdse invloeden, mogelijkheden tot analyse en vooruitberekening. Het beeld bood een sterke suggestie van beheersing en daarmee van volkomen planning. Het bleek alleen moeilijk om de veelheid van actuele gegevens te verzamelen. Wie in 1968 onderzoek deed, moest zich doorgaans behelpen met de volkstellingsgegevens van 1960. Die waren net klaar. Cijfers over de structuur van de economie waren even schaars als gedateerd.

 

Er is een groot verschil met een halve eeuw terug, en een grote overeenkomst. Ondanks alle sociaal-wenselijke negatieve praatjes en laatdunkendheid over maakbaarheid schuilt de overeenkomst natuurlijk in de wens tot beheersing. Omdat die wens nu versnipperd is over vele publieke en particuliere instanties lijkt die afwezig, maar schijn bedriegt. Het grote verschil is de beschikbaarheid van veel gegevens, openbare en niet-openbare, die de big-data-types graag willen koppelen: gezondheidsgegevens aan werkkringen, aan inkomens, aan bestedingspatronen, aan huren, koopprijzen, aan reisgedrag, aan schoolprestaties, koopgedrag bij de super, aan gegoogle, aan wat-niet-al. Wat vijftig jaar terug een sociale kaart werd genoemd, een sociologische buurtanalyse, kan nu veel uitgebreider, met veel meer gegevens worden opgesteld. De hamvraag is natuurlijk: levert dat ook meer inzicht? Nou, eh, ik bedoel, eh ja-nee, ik denk eigenlijk…. De lezer herkent meteen de typisch eigentijdse manier van antwoorden op eenvoudige en op niet-eenvoudige vragen: ‘eh, nee-ja, nou gewoon, of zo…’ Dit buitengewoon eloquente begin van een antwoord plant zich gewoonlijk met eenparig versnelde intensiteit in de rest van het betoog voort.

 

Een tijdje terug mocht ik een gastcollege geven aan een onzer universiteiten. Over onderzoek voor planvorming, niet het proces, maar de inhoud. Lekker platte planologische kost: wat zou waar kunnen of moeten worden gesitueerd in welke samenhang in welke hoeveelheden voor wie, wanneer en wie betaalt dat? Anders gezegd de klassieke zeven weeën van de planologie. Big data viel algauw. Die zou je nodig hebben. Wie zag er wat in? Alle vingers omhoog. Wie kan ‘big data’ definiëren? Alle vingers bleven beneden. Dat kwam door mijn ironische intonatie die in de vraag was geslopen, vermoed ik zo. Waarom noemen jullie het dan? ‘Nou, eh, nee-ja, gewoon, of zo…ik denk…’ Hoezo ‘denk’ je, vroeg ik, is dat hetzelfde als ‘ik weet’? Niet-begrijpende blikken staarden mij glazig aan. Ik vroeg door. Welke gegevens zijn voor ons doel zinnig en welke niet? Waardoor bepaal je dat? Hoe maak je onderscheid tussen kenmerken en gedragingen die tegelijkertijd voorkomen, maar geen verband met elkaar hebben en gedragingen die wel verband hebben en niet altijd tegelijkertijd voorkomen? Wat heb je nodig om te …verklaren? Eh…? Het werd dus een vreselijk nuttig college dat allesbehalve voldeed aan het supertoetsingscriterium van de hedendaags student: ‘leuk’.

 

Na lang sleuren brak de zon door. Je hebt alleen wat aan gegevens als er een theorie voorhanden is die samenhangen kan verklaren. Je hebt dus ook theorie nodig om te bepalen welke data, big or small, je nodig hebt, of niet nodig hebt. Zucht… of zo.