Experimenteren met big data

Strava Global Heat Map: downtown San Jose: waar stoppen fietsers om te winkelen vanuit verschillende locaties in Santa Cruz en Silicon Valley California (bron: Flick/ Richard Masoner)

15 februari 2017

Fietsonderzoek is sinds vijf jaar een veel besproken onderwerp binnen de ruimtelijke wetenschap en beleidswereld. Onder druk van duurzaamheidsdoelstellingen, dichtslibbende fietspaden en parkeerproblemen experimenteren steden op verschillende manieren met oplossingen. De manier waarop informatie over de fietser wordt verzameld is ook onderdeel van dit experiment. Dankzij verschillende technologische ontwikkelingen is het mogelijk meer over fietsers en voetgangers te leren. Dit is niet alleen handig voor de gebruiker maar vormt ook een bron van nieuwe informatie voor planners om de gebouwde omgeving beter op onze behoeften in te richten.

Bij het aanpakken van complexe stedelijke problemen kijken beleidsmakers en onderzoekers in toenemende mate naar het gebruik van big data bij het analyseren en oplossen van de problematiek; ook in Nederland. Mede vanwege de oprichting van het Amsterdam Institute for Advanced Metropolitan Solutions (AMS) is Amsterdam in april 2016 zelfs uitgeroepen tot Europese hoofdstad van innovatie.

Maar wat verstaan we precies onder big data en wat kunnen we er mee? Binnen wat Pentland (2014, p. 25-26) omschrijft als sociale fysica is big data de grote motor. Big data maakt een living lab mogelijk doordat het over een langere periode informatie verzamelt over alle facetten en interacties binnen een bepaald gebied. Tegelijkertijd is het een term die bij iedereen verschillende associaties oproept. Pentland (2014) heeft het over een spoor van digitale broodkruimels die iedereen achter zich laat. Denk hierbij bijvoorbeeld aan pintransacties of inchecken bij de trein. Echter, in tegenstelling tot wat velen denken is het niet alleen heel veel data, maar vooral veel verschillende soorten data waarbij met name het relationele aspect van groot belang is (Schinkel, 2015). Bij big data wordt dan ook meestal gerefereerd naar de 3 V’s van Laney (2001, in Romanillos e.a., 2015, p.1): volume in de omvang, velocity in de snelheid van generatie/collectie en variety in de variëteit van bronnen.

Dankzij de mogelijkheden van big data komen onderwerpen die voorheen niet of moeilijk te onderzoeken waren steeds meer binnen het bereik van planners. Ieder individu is nu in theorie te volgen via GPS, Wi-Fi, mobiele en andere netwerken. Zo ook binnen de mobiliteit waar met name positiebepaling via GPS nieuwe kansen biedt. Waar gemotoriseerd verkeer en het openbaar vervoer al langer te volgen zijn en men hun patronen inmiddels goed kan voorspellen, geldt voor voetgangers en fietsers het tegenovergestelde. Deze twee groepen zijn ten opzichte van een trein of een auto minder gebonden aan infrastructuur en laten zich dus moeilijker in kaart brengen. Dit betekent dat er over deze groepen minder informatie beschikbaar is.

Inzicht in slow modes

Het belang om meer te komen te weten over deze groep is groot. Nederland telt meer fietsen dan mensen en veel van de dagelijkse reizen die we in Nederland maken, beginnen of eindigen met lopen of fietsen. Het Kennisinstituut voor Mobiliteitsbeleid wijdde er in 2015 een publicatie aan genaamd ‘Fietsen en lopen: de smeerolie van onze mobiliteit’. Deze vervoerswijzen vormen binnen de stad de belangrijkste vervoerswijzen. Binnen de wetenschap worden de voordelen van fietsen voor het individu en de samenleving tevens onderstreept (Handy e.a., 2014), waarnaast Nederland internationaal wordt gezien als hét fietsland bij uitstek. Jaarlijks bezoeken meer dan honderd internationale delegaties Amsterdam om van ons te leren. Des te verrassender is het om te zien dat er tot circa vijf jaar geleden relatief weinig onderzoek is gedaan naar deze belangrijke modaliteit. Er is dus wel degelijk belang bij het vergaren van meer kennis over de fietser, zijn gedrag en zijn voorkeuren. Onder invloed van duurzaamheidsdoelstellingen, dichtslibbende fietspaden en binnensteden en fietsparkeer problematiek op grote stationsen uitgaanslocaties krijgt fietsonderzoek steeds meer aandacht onder beleidsmakers en politici.

Big data wordt gezien als de mogelijkheid om deze lacune aan kennis te vullen. In Nederland alleen zijn er meerdere lokale en regionale experimenten gestart waarbij met GPS-data informatie wordt verzameld over de fietser. De opkomst van big data biedt dus veel nieuwe kansen om deze onderbelichte groep beter in kaart te brengen. Hoewel de belofte van big data groot is, brengt het gebruik van dergelijke databronnen ook nieuwe uitdagingen met zich mee. Het doel van dit artikel is om zes van deze uitdagingen bij het gebruik van big databronnen uiteen te zetten om in het tweede deel van het artikel te kijken hoe de huidige fiets-big data in Nederland zich tot deze uitdagingen verhouden.

Zes uitdagingen

Dataverzameling door de overheid gebeurde eerst hoofdzakelijk via enquêtes, interviews of bijvoorbeeld reisdagboeken. Het grote voordeel van deze manier van dataverzameling is de controle die je als verzamelaar hebt op je onderzoekspopulatie en vragen. Het nadeel is echter de kosten en tijd die het kost om tot een dataset te komen (Braaksma e.a., 2014). Daarom maken overheden steeds vaker gebruik van eigen bestaande datasets. Het grote voordeel is dat ze er al zijn en dat het daardoor minder kost. Het nadeel is dat je de controle kwijt bent. Omdat het gebruik van big data een relatief nieuw fenomeen is, is er tot dusver vooral aandacht geweest voor de positieve kanten (Pentland, 2014). Nu deze bron van informatie steeds vaker voor beleidsdoeleinden wordt gebruikt is het van belang ook naar de keerzijde te kijken. Braaksma e.a. (2014) identificeren zes belangrijke uitdagingen waar je als beleidsmaker over na moet denken voordat je gebruikmaakt van databronnen: toegang, privacy, methodologie, interpretatie, technologie en continuïteit.

De eerste uitdaging is het verkrijgen van toegang tot big data. Het verzamelen van data gebeurt minder door overheden zelf. De eigendomsrechten liggen daarom ook niet bij de overheid. Dit betekent dat er moet worden onderhandeld met externe partijen over het uitwisselen van data en welke kosten hieraan verbonden zijn. Daarnaast is het niet altijd een prioriteit voor de data-verzamelende partij om haar data te delen met de overheid. Een recent voorbeeld hiervan is te zien in Amsterdam waar Airbnb weigerde haar data te delen met de gemeente om de illegale woningverhuur aan te pakken.

Het tweede punt privacy sluit goed bij het voorbeeld hierboven aan. Als dataverzamelaar heb je de verplichting naar je gebruikers om hun privacy te waarborgen. Mobiele telefoondata van Vodafone wordt bijvoorbeeld door het bedrijf Mezuro geanalyseerd om vervoersstromen in kaart te brengen. Hierbij worden mobiele telefoondata geanonimiseerd en geaggregeerd door Vodafone aangeboden. Deze vertaalslag van ruwe data naar beleidsrelevante informatie werkt alleen op de aanname dat er geen misbruik wordt gemaakt. De publieke perceptie is hierbij van dus groot belang.

Fietsparkeren bij Centraal Station Amsterdam (foto: Wojciech Biegun via Wikipedia)

Bij het waarborgen van privacy speelt uiteraard technologie een belangrijke rol. Het opslaan, bijhouden en bewerken van grote datasets vergt veel kennis. Ook de veiligheid van de datasets in verband met privacygevoelige gegevens valt hieronder. Elke dataset wordt met een bepaald doel opgericht en op een eigen manier ingericht en gestructureerd. Dit roept een methodologische uitgaging op: hoe combineer je deze verschillende bronnen? De Nationale Databank Wegverkeersgegevens (NDW, 2016) koopt data in bij veertien private bedrijven die ontstaan uit tellussen, camerabeelden en diverse soorten sensoren. De veiligheid en kwaliteit wordt gewaarborgd door raamcontracten op te stellen waarin alle publieke en private partijen afspraken maken over de uitwisseling van gegevens.

Om daadwerkelijk informatie uit big databronnen te destilleren is de volgende stap. De data juist interpreteren vormt de vijfde uitdaging. Wie of wat is er gemeten en wat was het doel? Het onjuist interpreteren kan leiden tot een bepaalde bias en daarmee een onjuiste interventie. Mede vanwege het feit dat het gebruik van big data voor beleidsdoeleinden nog onontgonnen terrein is, is het onduidelijk in hoeverre de continuïteit in het geding komt. Eén van de kenmerken van de technologische ontwikkeling in de afgelopen jaren is de snelheid van het komen en gaan van nieuwe platforms. Braaksma e.a. gebruiken in deze de treffende quote: ‘remember MySpace?’ (2014, p. 4). De vraag is in hoeverre een overheid afhankelijk wil zijn van secundaire databronnen waarvan het voortbestaan niet zeker is.

Deze zes strategische en soms zelfs ethische vraagstukken moet je als overheid adresseren voordat gebruik kan worden gemaakt van dergelijke big databronnen. Binnen Nederland wordt er op verschillende niveaus geëxperimenteerd met verschillende manieren om meer over de fiets te weten te komen. Hierbij wordt ook big data gebruikt. Deze bron van informatie bestaat naast reisdagboekdata en puntdata steeds meer uit GPS-data (Romanillos e.a., 2015). De belangrijkste redenen tot aarzeling bij het gebruik van dergelijke databronnen zijn het toegang krijgen tot deze data en de interpretatie daarvan (Ruiter, 2015). In de volgende paragrafen wordt er gekeken naar de hoe big GPS-databronnen zich verhouden tot de hierboven genoemde aandachtspunten.

GPS-dataverzameling

De meest bekende manier waarmee GPS-data worden verzameld is via sportapplicaties zoals Endomondo,
Runkeeper en Strava. Met deze applicaties houden wielrenners en hardlopers hun prestaties en routes bij. De apps registreren onder andere waar, wanneer en hoe snel er wordt gefietst. Wereldwijd worden wekelijks miljoenen nieuwe activiteiten geüpload. Interessant voor de atleten om inzicht te verkrijgen in hun prestaties, maar potentieel ook interessant voor planners om zo meer inzicht te krijgen in deze onderbelichte groep. In Amsterdam worden er door Strava wekelijks bijna 30.000 ritten geregistreerd over een afstand van meer dan 1,1 miljoen kilometer. Hoewel dit indrukwekkende cijfers zijn is het slechts een fractie van wat de Amsterdammer per week fietst: de gemeente Amsterdam stelt in 2013 het aantal gereden fietskilometers binnen Amsterdam op circa 2 miljoen per dág (Gemeente Amsterdam, 2013). Of deze sportapplicaties voldoen aan de term big data is de eerste vraag. Terugkomend op de 3 V’s lijken sportapplicaties toch vooral in een snel uitbreidend volume te voorzien van een bepaalde aanbieder en zijn er geen combinaties van verschillende bronnen bekend. Toch worden dergelijke bronnen over het algemeen als big data gezien. Een van de eerste problemen waar tegen aan wordt gelopen is de toegang tot fietsdata. Strava, misschien wel de grootste aanbieder van GPS-data, bood haar data tot 2013 openbaar aan. Sinds 2014 is het echter vercommercialiseerd naar een nieuw product speciaal ingericht voor planners en overheden: Strava Metro. In dit product worden alle individuele ritten geaggregeerd waardoor een heatmap ontstaat die inzicht biedt in waar, in welke mate en wanneer wordt gefietst. Tegen betaling, gebaseerd op het aantal gebruikers binnen het gebied, worden deze datasets aan steden wereldwijd aangeboden.

Aangezien veel van de data niet openbaar en zonder kosten te maken toegankelijk zijn kiezen sommige overheden er ook voor hun eigen data via smartphone applicaties te verzamelen. De Fietstelweek in 2015 of de B-riders-app waar vrijwilligers al hun fietsactiviteiten een week lang lieten tracken zijn hier voorbeelden van. Het doel van deze initiatieven is vaak tweeledig: enerzijds probeert het inzichtelijk te maken waar, wanneer en hoe mensen fietsen, anderzijds probeert het via een beloning fietsgebruik te stimuleren.

Eén van de belangrijkste kenmerken van deze apps en manier van dataverzameling is dat deelname altijd op vrijwillige basis is. Inherent hieraan is dat er een risico bestaat op een bepaalde bias. Interpretatie van de data is dus van belang. Hier spelen enkele belangrijke vragen. Wie zijn deze fietsers, zijn hun sociaal-demografische kenmerken, route-keuze en gedrag een juiste afspiegeling van de fietsgemeenschap? Omdat big data nog een relatief nieuw fenomeen is, zijn er slechts enkele studies waarbij wordt gepoogd op deze vragen in te gaan. In 2014 heeft een werkgroep in Portland, Oregon data van Strava aangeschaft en de mogelijkheden en barrières hiervan onderzocht. Hierin werd geconcludeerd dat de data bijdragen aan het begrijpen waar en wanneer er wordt gefietst, maar dat er geen uitspraken kunnen worden gedaan over het volume omdat slechts een fractie van de fietsers gebruik maakte van de sportapplicatie. In Auckland, Nieuw-Zeeland is in 2014 een vergelijkbare studie gedaan naar het nut van GPS-data bij onderzoek naar fietsers. Hieruit kwam naar voren dat minder dan tien procent van alle fietsers op een bepaalde route gebruik maakte van Strava. Toch resulteerde de studie wel in bruikbare inzichten voor de stad omdat over een langere periode inzicht in routekeuze en patronen van fietsers kon worden gegeven (Norman & Kesha, 2015).

Ook deze routekeuze is onderdeel van een bias richting sportieve en recreatieve fietsers. Een studie van Griffin en Jiao (2015) stelt na een analyse van Strava-data dat in plaats van fietspaden juist gebruik werd gemaakt van uitdagende en steile hellingen en fietsroutes. Over het gebruik van GPS-data uit sportapps hangt dus een bias richting een bepaalde groep fietsers. Op het moment dat inzichtelijk wordt gemaakt hoe de populatie van dergelijke sportapplicaties of applicaties zoals de fietstelweek is opgebouwd kan pas worden onderzocht in hoeverre deze de fietsgemeenschap in een bepaald gebied weerspiegelt.

De meerwaarde en volgende stap

Bovenstaande kritische noten maken GPS-data niet minder geschikt voor evaluatie van fietsbeleid. Sterker, big data heeft er voor gezorgd dat in Nederland het onderzoek steeds meer data gedreven wordt en minder leunt op eerdere ervaringen alleen (Romanillos e.a., 2015; Ruiter, 2015). De relatief gemakkelijke manier waarop data kunnen worden verzameld zorgen er voor dat in potentie veel nieuwe informatie voorhanden is. Ook de combinatie met de gebruikelijke verkeerstellingen is veelbelovend. Waar fietstellingen een betrouwbaar beeld schetsen van het volume en de rijrichtingen binnen een beperkt gebied qua omvang en tijd geeft big data, met inachtneming van de besproken aandachtspunten, inzicht in het totale netwerk en biedt het de mogelijkheid om over langere tijd de effecten van beleidsinterventies in kaart te brengen. Een manier hiervoor is bijvoorbeeld de planning support tool Bikeprint (2016) die GPS-data als input voor zijn fietsverkeermodel gebruikt. Door de GPS-data te combineren met sociaaleconomische en demografische gegevens kunnen voorspellingen worden gedaan over onder meer de fietspotentie en bereikbaarheid van een gebied. De vraag is dus niet zozeer of big data ons kan helpen om de fietser en zijn gedrag beter te leren begrijpen, maar hoe wij als planners met deze nieuwe bron van informatie moeten omgaan.

Dit arikel verscheen in Rooilijn jg. 50, nr. 2, pp. 50-57

Author profile
Ross is adviseur bij Sweco Nederland

Ross Padráig Ruiter (ross.ruiter@gmail.com) is adviseur bij Sweco Nederland.

Literatuur

Braaksma, B., P. Daas, M. Offermans, M. Puts & M. Tennekes (2014) Big Data and official statistics: local experiences and international initiatives’, Big Data & Society, jg. 1, nr. 1, DOI:10.1177/2053951714538417

Gemeente Amsterdam (2013) Achtergrondinformatie bij de Fietsparkeervisie Stadsdeel Centrum (Bijlage 1), Gemeente Amsterdam, www.amsterdam.nl/gemeente/bestuurscommissies/bestuurscommissie-c/beleid/fietsparkeervisie/, 19-04-2016

Handy S., B. van Wee & M. Kroesen (2014) ‘Promoting Cycling for Transport: Research Needs and Challenges’, Transport Reviews: A Transnational Transdisciplinary, jg. 34, nr. 1, DOI:10.1080/01441647.2013.860204

Griffin, G. P., & Jiao, J. (2015) ‘Where does Bicycling for Health Happen? Analysing Volunteered Geographic Information through Place and Plexus’, Journal of Transport & Health, jg. 2, nr. 2, DOI:10.1016/j.jth.2014.12.001

Nationale Databank Wegverkeersgegevens (2016) NDW: a nationwide portal for traffic information, 19-04-2016

Norman, G.& N. Kesha (2015) Using smartphones for cycle planning, website Harding Consultants, 19-04-2016

Pentland, A. (2014) Social Physics: How Good Ideas Spread-The Lessons from a New Science, Penguin, Londen

Romanillos, G., M. Zaltz Austwick, D. Ettema & J. De Kruijf (2015) Big Data and Cycling, Transport Reviews, DOI:
10.1080/01441647.2015.1084067

Ruiter, R.P. (2015) Data and Cycling: Exploring emerging technologies in planning practice, Masterscriptie, Universiteit van Amsterdam, Amsterdam

Schinkel, W. (2015) Het publieke van de numerieke stad, Ruimtevolk, 19-04-2016

Author profile
Ross is adviseur bij Sweco Nederland

Ross Padráig Ruiter (ross.ruiter@gmail.com) is adviseur bij Sweco Nederland.

Whatsapp

Reageer op dit artikel

0 reacties

Een reactie versturen

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *