Hoe Big is Big Data?


Big Data is hot. De nieuwsberichten overspoelen ons met nieuwe toepassingen van Big Data – van koelkasten die melk voor ons bestellen tot camera’s die criminele feiten op straat voorspellen. Maar wat is Big Data nu precies? Wat zijn de risico’s die eraan verbonden zijn? En hoe zit het met de wettelijke regelgeving omtrent datagebruik? Het boekje Big Data van Bart van der Sloot is een compact overzicht die deze vragen helder beantwoord. Het dient als een goede inleiding wanneer het gaat over een fenomeen dat steeds meer opkomt en ook de toekomst sterk zal bepalen.


Wat is Big Data?


Je voelt het misschien al aankomen: Big Data is een moeilijk te vatten begrip. Er zijn meerdere definities die telkens focussen op verschillende aspecten van Big Data. De ene definitie legt de nadruk op het gebruik van algoritmes, terwijl de andere definitie meent dat Big Data zich vooral bezighoudt met het categoriseren van mensen. Hieruit blijkt dat Big Data een koepelterm is voor verschillende ontwikkelingen.


Daarnaast is Big Data een fluïde begrip. Het gaat over veel databronnen, veel verschillende databronnen en een hoge analysesnelheid van die bronnen. Maar vanaf wanneer kunnen we spreken van genoeg data, zowel in volume als variëteit, en vanaf wanneer is de analysesnelheid snel genoeg?


Gelukkig zijn er toch overeenkomsten te vinden tussen de uiteenlopende begripsomschrijvingen. De drie fasen die Big Data doorlopen zijn telkens dezelfde: het verzamelen, analyseren en gebruiken van gegevens.


Opgepast: Big Data


Er zijn ook enkele waarschuwingtekens te geven voor Big Data. Bart van der Sloot somt er een tiental op. In deze blog beperken wij ons tot drie ervan.


Ten eerste, dataonderzoek wordt nu dikwijls uitgevoerd door mensen zonder statistische achtergrond. Toch is het belangrijk om enige kennis van statistiek te hebben om datagegevens correct te intererpreteren. Anders dreigen belangrijke vragen over het hoofd te worden gezien, zoals: hoe zijn de gegevens verzameld? Welke invloed heeft de methodologie op de representativiteit van de gegevens? En welke aannames zijn er gemaakt bij het programmeren van algoritmes?


Een tweede gevaar berust op het zogenaamde ‘chilling effect’: het angstige gevoel dat je bespied wordt door Big Data en dat daar negatieve consequenties aan verbonden zijn. Waar dit gevoel eerst nog heerste in de publieke ruimte vanwege camera’s op elke straathoek, dringt dit gevoel nu ook binnen in de privésfeer door alle slimme apparaten die we in huis halen.


Tot slot wordt tijdens het verzamelen, analyseren en gebruiken van Big Data de wet vaak ondermijnd. Het rechtstatelijk grondbeginsel, namelijk dat overheidspartijen alleen maar handelingen mogen verrichten waartoe zij expliciet zijn gemachtigd door het Nederlands parlement, wordt door Big Data veelvuldig geschonden. Zo heerst er de tendens om data experimenten uit te voeren zonder dat die experimenten zijn gebaseerd op expliciete wetten en wetsartikelen met daarin beschreven wanneer een bepaalde techniek mag worden ingezet onder welke voorwaarden en hoelang. Zodoende krijgen dergelijke experimenten een ‘vrijkaart’ voor regelgevingen over Big Data.


Oplossing: de wet?


Hoe kunnen we die dreigingen tegengaan? Ligt de oplossing bij een strengere wetgeving? Op dit moment is die regelgeving erg mager. Bij Big Data is er immers sprake van een inbreuk op het recht op gegevensbescherming, het recht op privacy, het recht op een eerlijk proces en het recht om niet gediscrimineerd te worden. In deze blog gaan we iets dieper in op de inbreuk op het recht op gegevensbescherming om vervolgens na te gaan hoe deze inbreuk recht gezet kan worden.


In de Algemene Verordening Gegevensbescherming (AVG) van de Europese Unie staan regels over het verwerken van persoonsgegevens door bedrijven en overheidsinstanties. Er zijn een tiental principes opgelijst door de AVG, maar elk principe wordt geschonden door Big Data. Eén principe gaat over de vereiste van doelspecificatie (wat is het beschreven doel van de dataverzameling?) en het feit dat gegevens enkel voor dat vastgelegde doel mogen worden verwerkt. Een tweede principe is het dataminimalisatieprincipe: het uitgangspunt dat er zo min mogelijk data mogen worden verzameld voor het vooropgestelde doel. Desondanks bepaalt Big Data vaak geen doel voor de verzameling van persoonsgegevens, maar verzamelt zoveel mogelijk gegevens om achteraf te bekijken welke data nuttig zijn. Op die manier worden worden beide principes overboord gegooid.


Het is dan ook niet gek dat een deel van de oplossing gezocht kan worden in een duidelijk omschreven wetgeving – geen principes meer, maar strengere regels en meer controlemechanismen.


Maar wat denk jij? Is de wetgeving dé oplossing voor datamisbruik of zie jij nog een andere uitweg voor ogen?