Vandaag deed de Rechter een belangwekkende uitspraak door het wettelijk fundament onder SyRI in strijd met de mensenrechten te verklaren. Het vonnis is een boeiend stuk om te lezen, zelfs al laat het enkele belangrijke zaken nog geheel buiten beschouwing (want die waren geen onderdeel van de zaak).

SyRI is het combineren van allerlei gegevens om te komen tot een risico-analyse voor fraude met sociale voorzieningen. De rechter merkt terecht op dat het bestrijden van fraude met sociale voorzieningen belangrijk is omdat de sociale zekerheid op solidariteit is gebaseerd, en fraude die solidariteit uitholt en daarmee het draagvlak voor voorzieningen kan ondermijnen.
“Allerlei gegevens” behelst hier een lijst, opgesomd in het vonnis (paragraaf 4.17) in 17 categoriën waaronder je arbeids-, fiscale, persoons-, scholings-, pensioen-, inkomens-, huisvestings-, zorggegevens, en alles over je eventuele schulden en boetes etc. Die gegevens worden op wijkniveau gecombineerd om adressen aan te wijzen met een ‘hoger risico’ op fraude met sociale voorzieningen.

De rechter stelt nu dat al die gegevens bij elkaar brengen voor dit doel niet proportioneel is t.o.v. de inbreuk op de privacy die het betekent voor alle bewoners van een wijk waarin zo’n onderzoek wordt uitgevoerd. En dus in strijd met Artikel 8 lid 2 van het Europees Verdrag voor de Rechten van de Mens Artikel 8 lid 2 (geen buitensporige inmenging van het openbaar gezag in de privésfeer, PDF). Het gaat om heel veel gegevens, en bovendien is volstrekt niet transparant hoe die gegevens leiden tot een oordeel over risico’s. Mogelijk leidt het bestaan van SyRi zo juist tot een lagere bereidheid van mensen om gegevens te laten registreren, of te corrigeren, en daarmee ontstaat een feedback loop naar lagere datakwaliteit die SyRI als gereedschap ondermijnt en ook het maatschappelijk draagvlak zelf.

SyRI is sinds 2015 toegepast in Eindhoven (G.A.L.O.P. II), de Afrikaanderwijk te Rotterdam, Capelle aan den IJssel, Rotterdam Bloemhof & Hillesluis en Haarlem Schalkwijk. Altijd in sociaal zwakkere wijken. En in contrast met alle verhalen over cutting edge dingen die je met big data en algoritmen kunt doen, werkt SyRi geheel niet. Het vonnis gaat daar verder niet op in, want het was geen onderdeel van de zaak. De Volkskrant achterhaalde vorig jaar echter dat er nog géén énkel fraudegeval is opgespoord sinds SyRI in 2014 wettelijk mogelijk werd. Maar iedere inwoner van de genoemde wijken is er wel als bij voorbaat verdacht voor aangemerkt.

Technische problemen, verkeerd aangeleverde data en discussie over de manier waarop het onderzoek moest worden uitgevoerd, leidden tot vertragingen. Ook speelde soms capaciteitsgebrek een rol, bij de deelnemende organisaties. De enige keer dat er daadwerkelijk via SyRI verkregen adressen nader zijn onderzocht, in Capelle aan den IJssel, bleek die informatie al bekend of inmiddels achterhaald. (Volkskrant 27 juni 2017)

Algoritmes leveren niet veel bruikbaars op als de gegevens waar ze op los worden gelaten mager van kwaliteit zijn. En de kwaliteit van de Nederlandse data-huishouding (buiten taakspecialisten als CBS, etc) is redelijk laag. Met name juist bij gemeenten, waar SyRI voor in het leven is geroepen. En al is je data op orde, trappen algoritmes al snel open deuren in, deuren die met bestaande methoden al lang waren gevonden. Precies zoals het in Capelle aan den IJssel dus ging met SyRi, het enige geval waar er überhaupt output was. In november was ik bij een boeiende en krachtige voordracht van Karin Akkers van de Gemeente Den Bosch, die een SyRI-achtig (maar niet SyRi gebaseerd) experiment deden op zoek naar criminaliteit in wijken (ihkv ondermijning). Uiteindelijk bleek uit al het werk dat met name alleenstaande mannen tussen de 20 en 40 (ik parafraseer die getallen) een hoger risico op criminaliteit betekenen. Dat is op z’n zachtst gezegd geen nieuw inzicht. De Gemeente Den Bosch hield een feestelijke ‘data deleting’ borrel en nam afscheid van het experiment. (Wel leerden ze dat allerlei partijen van elkaar niet weten dat ze bij een bepaald gezin betrokken zijn. Ook geen nieuw inzicht, maar wel een bruikbare wake-up call voor de betrokkenen)

Je kunt ook vraagtekens zetten bij de keuze om zoiets als dit op wijkniveau te doen, de ‘wijkgerichte aanpak (WGA)’ betekent immers dat iemand ergens beslist dat jouw wijk een probleemgeval is, en dat een andere wijk dat zeker niet is. Tenzij je ook hier heldere criteria hanteert die aantoonbaar relevant zijn, liggen vooroordelen op de loer. Ja, een hele gemeente onder de loupe nemen is nog meer disproportioneel, maar het is tenminste niet stigmatiserend voor een wijk.

Ik ben ook nieuwsgierig naar wat de kosten tot nu toe zijn geweest van het gebruik van SyRi en het opzetten van de onderzoeken in de genoemde wijken. Met name hoe zich dat bedrag verhoudt met wat die gemeenten denken dat het fraudebedrag is met hun sociale voorzieningen. Proportionaliteit is niet alleen van toepassing op inbreuk op de persoonlijke levenssfeer, maar ook een factor in de publieke verantwoording van overheidsuitgaven. Nu is die verhouding sowieso zoek omdat er nergens resultaten zijn geboekt met SyRI, maar stel dat het 100% had gewerkt, hoeveel fraude had een gemeente er maximaal mee gedacht op te sporen? Hoe groot is het probleem eigenlijk, weet men dat (het CBS lijkt te weten dat het in heel Nederland bijna altijd om geringe bedragen per geval gaat), en past de (niet werkende) oplossing daar wel bij?

Capelle, een van de plekken waar SyRi precies niets over te melden had.

Als je big data doet, zorg dan dat je volledig transparant bent over hoe je het doet en wat je doet, dat het past bij het probleem dat je wilt aanpakken, dat alle betrokkenen ook echt een verantwoord onderzoek kunnen opzetten en uitvoeren met de juiste vaardigheden, en dat de gebruikte data op orde is en aantoonbaar relevant en noodzakelijk voor je casus. Voordat je die voorwaarden hebt ingevuld is elk bigdata project een ongericht projectiel en in zichzelf schadelijker dan enig resultaat dat er uit voort mocht komen.

Bookmarked Do we really want to “sell” ourselves? The risks of a property law paradigm for personal data ownership. by Elizabeth Renieris and Dazza Greenwood

Elizabeth Renieris and Dazza Greenwood give different words to my previously expressed concerns about the narrative frame of personal ownership of data and selling it as a tool to counteract the data krakens like Facebook. The key difference is in tying it to different regulatory frameworks, and when each of those comes into play. Property law versus human rights law. [UPDATE in the EU digital data cannot be owned, as it isn’t an object. There may be intellectual property rights to databases (but not to data where it is factual).]

I feel the human rights angle also will serve us better in coming to terms with the geopolitical character of data (and one that the EU is baking into its geopolitical proposition concerning data). In the final paragraph they point to the ‘basic social compact’ that needs explicit support. That I connect to my notion of how so much personal data is also more like communal data, not immediately created or left by me as an individual, but the traces I leave acting in public. At Techfestival Aza Raskin pointed to fiduciary roles for those holding data on those publicly left personal data traces, and Martin von Haller mentioned how those personal data traces also can serve communal purposes and create communal value, placing it in yet another legal setting (that of weighing privacy versus public interest).

…viewing this data as property that is capable of being bought, sold, and owned by others is in large part how we ended up with a broken internet funded by advertising — or the “ad tech model” of the Internet. A property law-based, ownership model of our data risks extending this broken ad tech model of the Internet to all other facets of our digital identity and digital lives expressed through data. While new technology solutions are emerging to address the use of our data online, the threat is not solved with technology alone. Rather, it is time for our attitudes and legal frameworks to catch up. The basic social compact should be explicitly supported and reflected by our business models, legal frameworks and technology architectures, not silently eroded and replaced by them.

Elizabeth Renieris and Dazza Greenwood

Some links I thought worth reading the past few days

This week I was invited to Malaysia as one of 8 members of the advisory panel on big data to the Malaysian government. The meeting was part of the Big Data Week taking place in Kuala Lumpur where I gave two presentations and was part of a panel discussion. Malaysia intends to become a big data hub for ASEAN countries. To that end it brought well over 2000 people together to discuss big data, and as part of that Richard Stirling (of the ODI) and I were there to highlight the role of open (government) data in that. Next to the conference as part of the advisory panel I met for a day in a closed-door session with MDeC, the agency that is responsible for the implementation of Malaysia’s big data plans. On my own initiative I met with the Ministry for Administrative Modernisation’s planning unit (MAMPU) to discuss the change management and community aspects of becoming a more open government in more detail, and see how that might be tied in with the ongoing efforts of the World Bank’s collaboration with the Malaysian government.

During the conference I gave two presentations. The first on the notion that to make sure that open and big data have a broad impact socially and economically, you need to have a strategy that involves all stakeholders, and move beyond the big company focus the effort currently seems to have. SME’s, civic organizations, and individual citizens play a crucial role, not just bigger corporations and academic institutions who provide the needed skill sets.
In this presentation I looked at half a dozen or so emergent patterns that stand out from all open data stories I’ve been part of in Europe and elsewhere to make that clear.

The second presentation took just one of those patterns: that in ‘open data’ openness is much more important than data, and zoomed in on it, under the title ‘Open data is the biggest data of all’. In this presentation I posited that openness is a necessity in a networked society, to be a visible and thus acknowledged part of the network, that in aggregate open data is bigger than whatever big data set, and that openness hits a large number of factors that make non-lineair impact possible. The type of growth that we promise ourselves from big data, but which itself in reality usually only aims for incremental growth for established players. Our societies however need that non-lineair kick. We need to reason backwards from where we want to see socio-economic impact, to which type of circumstances, such as data availability, and broad inclusiveness are needed to get there.

Finally I did a fun panel debate with Michael Cornwell on the new ethical questions emerging around open data and privacy, where I made a call for more ‘data awareness’ and called upon entrepreneurs to be straightforward to their clients on how they are using data. The way a company deals with the data that describes me and my behaviour is part of my deal and interaction with a company, and any intentional opaqueness concerning data from the company side should be seen as a breach of trust and short-changing the client.