Replied to Things that have caught my eye: An Algorithm That Grants Freedom, or Takes It Away. (The Obvious?)
Algorithms already deciding all sorts of things to do with people’s lives. Who gets to decide their priorities and how will we feel when we realise that they are already being applied to us?

One element to look for in algorithms I think is if they are symmetric or asymmetric in how its choices are treated. I just helped realise an automated subsidy allocation decision process for a Dutch regional government. Key element is that subsidy requests can be automatically awarded (cutting back the processing time from 13 weeks and payment in 17 weeks, to immediate and payment to under 5 days), but that requests cannot be automatically denied. If the automatic process can’t allocate automatically it goes to a civil servant that reviews the request and allocates or denies the subsidy. (Not coincidentally the GDPR forbids automated decision making about people, especially if that decision is detrimental to the person being decided about)

Vandaag deed de Rechter een belangwekkende uitspraak door het wettelijk fundament onder SyRI in strijd met de mensenrechten te verklaren. Het vonnis is een boeiend stuk om te lezen, zelfs al laat het enkele belangrijke zaken nog geheel buiten beschouwing (want die waren geen onderdeel van de zaak).

SyRI is het combineren van allerlei gegevens om te komen tot een risico-analyse voor fraude met sociale voorzieningen. De rechter merkt terecht op dat het bestrijden van fraude met sociale voorzieningen belangrijk is omdat de sociale zekerheid op solidariteit is gebaseerd, en fraude die solidariteit uitholt en daarmee het draagvlak voor voorzieningen kan ondermijnen.
“Allerlei gegevens” behelst hier een lijst, opgesomd in het vonnis (paragraaf 4.17) in 17 categoriën waaronder je arbeids-, fiscale, persoons-, scholings-, pensioen-, inkomens-, huisvestings-, zorggegevens, en alles over je eventuele schulden en boetes etc. Die gegevens worden op wijkniveau gecombineerd om adressen aan te wijzen met een ‘hoger risico’ op fraude met sociale voorzieningen.

De rechter stelt nu dat al die gegevens bij elkaar brengen voor dit doel niet proportioneel is t.o.v. de inbreuk op de privacy die het betekent voor alle bewoners van een wijk waarin zo’n onderzoek wordt uitgevoerd. En dus in strijd met Artikel 8 lid 2 van het Europees Verdrag voor de Rechten van de Mens Artikel 8 lid 2 (geen buitensporige inmenging van het openbaar gezag in de privésfeer, PDF). Het gaat om heel veel gegevens, en bovendien is volstrekt niet transparant hoe die gegevens leiden tot een oordeel over risico’s. Mogelijk leidt het bestaan van SyRi zo juist tot een lagere bereidheid van mensen om gegevens te laten registreren, of te corrigeren, en daarmee ontstaat een feedback loop naar lagere datakwaliteit die SyRI als gereedschap ondermijnt en ook het maatschappelijk draagvlak zelf.

SyRI is sinds 2015 toegepast in Eindhoven (G.A.L.O.P. II), de Afrikaanderwijk te Rotterdam, Capelle aan den IJssel, Rotterdam Bloemhof & Hillesluis en Haarlem Schalkwijk. Altijd in sociaal zwakkere wijken. En in contrast met alle verhalen over cutting edge dingen die je met big data en algoritmen kunt doen, werkt SyRi geheel niet. Het vonnis gaat daar verder niet op in, want het was geen onderdeel van de zaak. De Volkskrant achterhaalde vorig jaar echter dat er nog géén énkel fraudegeval is opgespoord sinds SyRI in 2014 wettelijk mogelijk werd. Maar iedere inwoner van de genoemde wijken is er wel als bij voorbaat verdacht voor aangemerkt.

Technische problemen, verkeerd aangeleverde data en discussie over de manier waarop het onderzoek moest worden uitgevoerd, leidden tot vertragingen. Ook speelde soms capaciteitsgebrek een rol, bij de deelnemende organisaties. De enige keer dat er daadwerkelijk via SyRI verkregen adressen nader zijn onderzocht, in Capelle aan den IJssel, bleek die informatie al bekend of inmiddels achterhaald. (Volkskrant 27 juni 2017)

Algoritmes leveren niet veel bruikbaars op als de gegevens waar ze op los worden gelaten mager van kwaliteit zijn. En de kwaliteit van de Nederlandse data-huishouding (buiten taakspecialisten als CBS, etc) is redelijk laag. Met name juist bij gemeenten, waar SyRI voor in het leven is geroepen. En al is je data op orde, trappen algoritmes al snel open deuren in, deuren die met bestaande methoden al lang waren gevonden. Precies zoals het in Capelle aan den IJssel dus ging met SyRi, het enige geval waar er überhaupt output was. In november was ik bij een boeiende en krachtige voordracht van Karin Akkers van de Gemeente Den Bosch, die een SyRI-achtig (maar niet SyRi gebaseerd) experiment deden op zoek naar criminaliteit in wijken (ihkv ondermijning). Uiteindelijk bleek uit al het werk dat met name alleenstaande mannen tussen de 20 en 40 (ik parafraseer die getallen) een hoger risico op criminaliteit betekenen. Dat is op z’n zachtst gezegd geen nieuw inzicht. De Gemeente Den Bosch hield een feestelijke ‘data deleting’ borrel en nam afscheid van het experiment. (Wel leerden ze dat allerlei partijen van elkaar niet weten dat ze bij een bepaald gezin betrokken zijn. Ook geen nieuw inzicht, maar wel een bruikbare wake-up call voor de betrokkenen)

Je kunt ook vraagtekens zetten bij de keuze om zoiets als dit op wijkniveau te doen, de ‘wijkgerichte aanpak (WGA)’ betekent immers dat iemand ergens beslist dat jouw wijk een probleemgeval is, en dat een andere wijk dat zeker niet is. Tenzij je ook hier heldere criteria hanteert die aantoonbaar relevant zijn, liggen vooroordelen op de loer. Ja, een hele gemeente onder de loupe nemen is nog meer disproportioneel, maar het is tenminste niet stigmatiserend voor een wijk.

Ik ben ook nieuwsgierig naar wat de kosten tot nu toe zijn geweest van het gebruik van SyRi en het opzetten van de onderzoeken in de genoemde wijken. Met name hoe zich dat bedrag verhoudt met wat die gemeenten denken dat het fraudebedrag is met hun sociale voorzieningen. Proportionaliteit is niet alleen van toepassing op inbreuk op de persoonlijke levenssfeer, maar ook een factor in de publieke verantwoording van overheidsuitgaven. Nu is die verhouding sowieso zoek omdat er nergens resultaten zijn geboekt met SyRI, maar stel dat het 100% had gewerkt, hoeveel fraude had een gemeente er maximaal mee gedacht op te sporen? Hoe groot is het probleem eigenlijk, weet men dat (het CBS lijkt te weten dat het in heel Nederland bijna altijd om geringe bedragen per geval gaat), en past de (niet werkende) oplossing daar wel bij?

Capelle, RotterdamCapelle, een van de plekken waar SyRi precies niets over te melden had.

Als je big data doet, zorg dan dat je volledig transparant bent over hoe je het doet en wat je doet, dat het past bij het probleem dat je wilt aanpakken, dat alle betrokkenen ook echt een verantwoord onderzoek kunnen opzetten en uitvoeren met de juiste vaardigheden, en dat de gebruikte data op orde is en aantoonbaar relevant en noodzakelijk voor je casus. Voordat je die voorwaarden hebt ingevuld is elk bigdata project een ongericht projectiel en in zichzelf schadelijker dan enig resultaat dat er uit voort mocht komen.

This week NBC published an article exploring the source of training data sets for facial recognition. It makes the claim that we ourselves are providing, without consent, the data that may well be used to put us under surveillance.

In January IBM made a database available for research into facial recognition algorithms. The database contains some 1 million face descriptions that can be used as a training set. Called “Diversity in Faces” the stated aim is to reduce bias in current facial recognition abilities. Such bias is rampant often due to too small and too heterogenous (compared to the global population) data sets used in training. That stated goal is ethically sound it seems, but the means used to get there raises a few questions with me. Specifically if the means live up to the same ethical standards that IBM says it seeks to attain with the result of their work. This and the next post explore the origins of the DiF data, my presence in it, and the questions it raises to me.

What did IBM collect in “Diversity in Faces”?
Let’s look at what the data is first. Flickr is a photo sharing site, launched in 2004, that started supporting publishing photos with a Creative Commons license from early on. In 2014 a team led by Bart Thomee at Yahoo, which then owned Flickr, created a database of 100 million photos and videos with any type of Creative Commons license published in previous years on Flickr. This database is available for research purposes and known as the ‘YFCC-100M’ dataset. It does not contain the actual photos or videos per se, but the static metadata for those photos and videos (urls to the image, user id’s, geo locations, descriptions, tags etc.) and the Creative Commons license it was released under. See the video below published at the time:

YFCC100M: The New Data in Multimedia Research from CACM on Vimeo.

IBM used this YFCC-100M data set as a basis, and selected 1 million of the photos in it to build a large collection of human faces. It does not contain the actual photos, but the metadata of that photo, and a large range of some 200 additional attributes describing the faces in those photos, including measurements and skin tones. Where YFC-100M was meant to train more or less any image recognition algorithm, IBM’s derivative subset focuses on faces. IBM describes the dataset in their Terms of Service as:

a list of links (URLs) of Flickr images that are publicly available under certain Creative Commons Licenses (CCLs) and that are listed on the YFCC100M dataset (List of URLs together with coding schemes aimed to provide objective measures of human faces, such as cranio-facial features, as well as subjective annotations, such as human-labeled annotation predictions of age and gender(“Coding Schemes Annotations”). The Coding Schemes Annotations are attached to each URL entry.

My photos are in IBM’s DiF
NBC, in their above mentioned reporting on IBM’s DiF database, provide a little tool to determine if photos you published on Flickr are in the database. I am an intensive user of Flickr since early 2005, and published over 25.000 photos there. A large number of those carry a Creative Commons license, BY-NC-SA, meaning that as long as you attribute me, don’t use an image commercially and share your result under the same license you’re allowed to use my photos. As the YFCC-100M covers the years 2004-2014 and I published images for most of those years, it was likely my photos are in it, and by extension likely my photos are in IBM’s DiF. Using NBC’s tool, based on my user name, it turns out 68 of my photos are in IBM’s DiF data set.

One set of photos that apparently is in IBM’s DiF cover the BlogTalk Reloaded conference in Vienna in 2006. There I made various photos of participants and speakers. The NBC tool I mentioned provides one photo from that set as an example:

Thomas Burg

My face is likely in IBM’s DiF
Although IBM doesn’t allow a public check who is in their database, it is very likely that my face is in it. There is a half-way functional way to explore the YFCC-100M database, and DiF is derived from the YFCC-100M. It is reasonable to assume that faces that can be found in YFCC-100M are to be found in IBM’s DiF. The German university of Kaiserslautern at the time created a browser for the YFCC-100M database. Judging by some tests it is far from complete in the results it shows (for instance if I search for my Flickr user name it shows results that don’t contain the example image above and the total number of results is lower than the number of my photos in IBM’s DiF) Using that same browser to search for my name, and for Flickr user names that are likely to have taken pictures of me during the mentioned BlogTalk conference and other conferences, show that there is indeed a number of pictures of my face in YFCC-100M. Although the limited search in IBM’s DiF possible with NBC’s tool doesn’t return any telling results for those Flickr user names. it is very likely my face is in IBM’s DiF therefore. I do find a number of pictures of friends and peers in IBM’s DiF that way, taken at the same time as pictures of myself.


Photos of me in YFCC-100M

But IBM won’t tell you
IBM is disingenuous when it comes to being transparent about what is in their DiF data. Their TOS allows anyone whose Flickr images have been incorporated to request to be excluded from now on, but only if you can provide the exact URLs of the images you want excluded. That is only possible if you can verify what is in their data, but there is no public way to do so, and only university affiliated researchers can request access to the data by stating their research interest. Requests can be denied. Their TOS says:

3.2.4. Upon request from IBM or from any person who has rights to or is the subject of certain images, Licensee shall delete and cease use of images specified in such request.

Time to explore the questions this raises
Now that the context of this data set is clear, in a next posting we can take a closer look at the practical, legal and ethical questions this raises.

Wenn du schreibst, Heinz, das der Studiengang Content Strategie noch aktiv in Entwicklung ist, da die Disziplin sich noch immer weiter gestaltet, heisst das denn das ihr euch zunehmend auch mit Algorithmen usw auseinandersetzt? Nebst zB Einflussnahme auf Wahlen, wobei ich Inhalte gezeigt bekomme die andere nicht über den selben Politiker zu sehen bekommen, fand ich gestern ein krasses Beispiel wobei auf Netflix andere Akteure im ‘Filmplakat’ gezeigt werden je nach meinem Profil, inklusive meiner Hautfarbe. Die Frage dabei ist wohl wann eine Strategie zum ‘dark pattern‘ wird. Und wann es unendlich leichter ist mich was vorzuzeigen als für mich mich dagegen zu wehren. Machtdifferenzen durch Content Strategie?

Wired is calling for an RSS revival.

RSS is the most important piece of internet plumbing for following new content from a wide range of sources. It allows you to download new updates from your favourite sites automatically and read them at your leisure. Dave Winer, forever dedicated to the open web, created it.

I used to be a very heavy RSS user. I tracked hundreds of sources on a daily basis. Not as news but as a way to stay informed about the activities and thoughts of people I was interested in. At some point, that stopped working. Popular RSS readers were discontinued, most notably Google’s RSS reader, many people migrated to the Facebook timeline, platforms like Twitter stopped providing RSS feeds to make you visit their platform, and many people stopped blogging. But with FB in the spotlight, there is some interest in refocusing on the open web, and with it on RSS.

Currently I am repopulating from scratch my RSS reading ‘antenna’, following around 100 people again.

Wired in its call for an RSS revival suggests a few RSS readers. I, as I always have, use a desktop RSS reader, which currently is ReadKit. The FB timeline presents stuff to you based on their algorithmic decisions. As mentioned I definitely would like to have smarter ways of shaping my own information diet, but then with me in control and not the one being commoditised.

So it’s good to read that RSS Reader builders are looking at precisely that.
“Machines can have a big role in helping understand the information, so algorithms can be very useful, but for that they have to be transparent and the user has to feel in control. What’s missing today with the black-box algorithms is where they look over your shoulder, and don’t trust you to be able to tell what’s right.”,says Edwin Khodabakchian cofounder and CEO of RSS reader Feedly (which currently has 14 million users). That is more or less precisely my reasoning as well.