Favorited Forcing Google’s Image Search to Provide CC Licensed Results by Default by Alan Levine

Good suggestion Alan, I’ve used it to add a ‘gcc’ workflow to my AlfredApp. If I type, sticking with your example, ‘gcc dog’ it will open https://www.google.com/search?q=dog&tbm=isch&tbs=il%3Acl. Any input ‘gcc query’ will open an url https://www.google.com/search?q={query}&tbm=isch&tbs=il%3Acl. I do wonder, as you note as well, about the general effectiveness of a Creative Commons search through Google. It yields many results that aren’t at all obviously CC licensed for instance. I use the Flickr search a lot as it allows me to set which specific CC license I am looking for, not all CC licenses are suitable for use on my blog e.g. And there is also OpenVerse (previously Creative Commons search, now an open source project hosted by WordPress), which I probably should be using more often and which includes Flickr. I have added Alfred workflows for those too (WordPress: https://wordpress.org/openverse/search/image?q={query}, Flickr with a specific license: https://www.flickr.com/search/?text={query}&license=4%2C5%2C6%2C9%2C10). So your post is a good prompt regardless of Google.

Do everything you can to subvert The Google. And find joy when you succeed. It’s a likely losing war, but you might come out on top of a few skirmishes.

Alan Levine

A project I’m involved has won funding from the SIDN Fund. SIDN is the Dutch domain name authority, and they run a fund to promote, innovate, and stimulate internet use, to build a ‘stronger internet for all’.
With the Open Nederland association, the collective of makers behind the Dutch Creative Commons Chapter, of which I’m a board member, we received funding for our new project “Filter me niet!” (Don’t filter me.)

With the new EU Copyright Directive, the position of copyrights holders is in flux the coming two years. Online platforms will be responsible for ensuring copyrights on content you upload. In practice this will mean that YouTube, Facebook, and all those other platforms will filter out content where they have doubts concerning origin, license or metadata. For makers this is a direct threat, as they run the risk of seeing their uploads blocked even while they clearly hold the needed copyright. False positives are already a very common phenomenon, and this will likely get worse.

With Filtermeniet.nl (Don’t filter me) we want to aid makers that want to upload their work, by inserting a bit of advice and assistance right when they want to hit that upload button. We’ll create a tool, guide and information source for Dutch media makers, through which they can declare the license that fits them best, as well as improve metadata. In order to lower the risk of being automatically filtered out for the wrong reasons.

At the end of March the European Commission (EC) has announced it is adopting the Creative Commons By Attribution license as its standard license.

The CC-BY license will be used for videos and photos, studies published in peer-reviewed journals, data and visualisations on the EU open data portal and documents published on EU websites.

Re-use of EC material has been possible since 2006 (and rephrased in 2011), but in practice it wasn’t always clear to potential re-users what was allowed and what wasn’t.
While re-use and attribution is part of the EC’s copyright notice, it is likely re-users are discouraged by the copyright claim above it, and missing the permissions underneath it:

Current default copyright notice on EC websites, to be exchanged for a CC-BY license

In contrast adding the Creative Commons By Attribution license sends a clear message about permissions that are granted up-front without the need for a re-user to seek consent: any re-use is permitted, including commercial re-use, provided the EC is attributed as its source, and provided re-use forms or alterations don’t suggest they are endorsed by or coming from the EC.

The clarity that a Creative Commons license provides

(full disclosure: I am a board member of Open Nederland, the Dutch Creative Commons chapter)

This week NBC published an article exploring the source of training data sets for facial recognition. It makes the claim that we ourselves are providing, without consent, the data that may well be used to put us under surveillance.

In January IBM made a database available for research into facial recognition algorithms. The database contains some 1 million face descriptions that can be used as a training set. Called “Diversity in Faces” the stated aim is to reduce bias in current facial recognition abilities. Such bias is rampant often due to too small and too heterogenous (compared to the global population) data sets used in training. That stated goal is ethically sound it seems, but the means used to get there raises a few questions with me. Specifically if the means live up to the same ethical standards that IBM says it seeks to attain with the result of their work. This and the next post explore the origins of the DiF data, my presence in it, and the questions it raises to me.

What did IBM collect in “Diversity in Faces”?
Let’s look at what the data is first. Flickr is a photo sharing site, launched in 2004, that started supporting publishing photos with a Creative Commons license from early on. In 2014 a team led by Bart Thomee at Yahoo, which then owned Flickr, created a database of 100 million photos and videos with any type of Creative Commons license published in previous years on Flickr. This database is available for research purposes and known as the ‘YFCC-100M’ dataset. It does not contain the actual photos or videos per se, but the static metadata for those photos and videos (urls to the image, user id’s, geo locations, descriptions, tags etc.) and the Creative Commons license it was released under. See the video below published at the time:

YFCC100M: The New Data in Multimedia Research from CACM on Vimeo.

IBM used this YFCC-100M data set as a basis, and selected 1 million of the photos in it to build a large collection of human faces. It does not contain the actual photos, but the metadata of that photo, and a large range of some 200 additional attributes describing the faces in those photos, including measurements and skin tones. Where YFC-100M was meant to train more or less any image recognition algorithm, IBM’s derivative subset focuses on faces. IBM describes the dataset in their Terms of Service as:

a list of links (URLs) of Flickr images that are publicly available under certain Creative Commons Licenses (CCLs) and that are listed on the YFCC100M dataset (List of URLs together with coding schemes aimed to provide objective measures of human faces, such as cranio-facial features, as well as subjective annotations, such as human-labeled annotation predictions of age and gender(“Coding Schemes Annotations”). The Coding Schemes Annotations are attached to each URL entry.

My photos are in IBM’s DiF
NBC, in their above mentioned reporting on IBM’s DiF database, provide a little tool to determine if photos you published on Flickr are in the database. I am an intensive user of Flickr since early 2005, and published over 25.000 photos there. A large number of those carry a Creative Commons license, BY-NC-SA, meaning that as long as you attribute me, don’t use an image commercially and share your result under the same license you’re allowed to use my photos. As the YFCC-100M covers the years 2004-2014 and I published images for most of those years, it was likely my photos are in it, and by extension likely my photos are in IBM’s DiF. Using NBC’s tool, based on my user name, it turns out 68 of my photos are in IBM’s DiF data set.

One set of photos that apparently is in IBM’s DiF cover the BlogTalk Reloaded conference in Vienna in 2006. There I made various photos of participants and speakers. The NBC tool I mentioned provides one photo from that set as an example:

My face is likely in IBM’s DiF
Although IBM doesn’t allow a public check who is in their database, it is very likely that my face is in it. There is a half-way functional way to explore the YFCC-100M database, and DiF is derived from the YFCC-100M. It is reasonable to assume that faces that can be found in YFCC-100M are to be found in IBM’s DiF. The German university of Kaiserslautern at the time created a browser for the YFCC-100M database. Judging by some tests it is far from complete in the results it shows (for instance if I search for my Flickr user name it shows results that don’t contain the example image above and the total number of results is lower than the number of my photos in IBM’s DiF) Using that same browser to search for my name, and for Flickr user names that are likely to have taken pictures of me during the mentioned BlogTalk conference and other conferences, show that there is indeed a number of pictures of my face in YFCC-100M. Although the limited search in IBM’s DiF possible with NBC’s tool doesn’t return any telling results for those Flickr user names. it is very likely my face is in IBM’s DiF therefore. I do find a number of pictures of friends and peers in IBM’s DiF that way, taken at the same time as pictures of myself.

Photos of me in YFCC-100M

But IBM won’t tell you
IBM is disingenuous when it comes to being transparent about what is in their DiF data. Their TOS allows anyone whose Flickr images have been incorporated to request to be excluded from now on, but only if you can provide the exact URLs of the images you want excluded. That is only possible if you can verify what is in their data, but there is no public way to do so, and only university affiliated researchers can request access to the data by stating their research interest. Requests can be denied. Their TOS says:

3.2.4. Upon request from IBM or from any person who has rights to or is the subject of certain images, Licensee shall delete and cease use of images specified in such request.

Time to explore the questions this raises
Now that the context of this data set is clear, in a next posting we can take a closer look at the practical, legal and ethical questions this raises.

In januari schreef ik aangenaam verrast over de Provincie Overijssel die hun iconenset uit de huisstijl onder een Creative Commons licentie hadden gepubliceerd. Ik schreef de Provincie er een complimenterende e-mail over, en stelde de vraag welke Creative Commons licentie er precies bedoeld werd. Want dat was niet duidelijk op de website. Zo was niet helder of naamsvermelding gewenst was, of commercieel hergebruik was toegestaan, en of afgeleid werk onder dezelfde condities moest worden gelicentieerd. Ik kreeg een mail terug met de aankondiging dat ze een aanpassing zouden doen.

Tot mijn verbazing was de aanpassing niet een verduidelijking maar een terugdraaiing van het geheel. De Creative Commons licentie is verdwenen en de site laat nu alleen het gebruik van de iconen toe voor en door de Provincie en hun leveranciers.

Ik stuurde een teleurgestelde e-mail, waarin ik vragen stelde over hoe de nieuwe keuze tot stand gekomen is. Dat wordt natuurlijk al snel een lange mail, omdat het bij dit soort zaken snel over details gaat. Elke vlottere formulering roept dan weer al gauw nieuwe vragen op. Het was dan ook prettig dat een van de communicatie-teamleden me vanmiddag belde om wat context te verschaffen.

Het toevoegen van CC aan de iconen was een door een medewerker gedaan experiment , op basis van ervaringen met eerdere iconen die onder CC beschikbaar waren. De intentie was om CC wat meer gebruik te geven. Dat maakt het bijvoorbeeld ook voor andere overheden makkelijker om dingen van elkaar her te gebruiken. Daar heeft iedereen profijt van. Maar juist bij creatieve uitingen (anders dan bijvoorbeeld bij data waar landelijk beleid geldt t.a.v. CC gebruik) zijn er meer auteursrechtelijke aspecten om rekening mee te houden. Commercieel hergebruik van de creatieve uitingen van een ander zijn dan praktisch en gevoelsmatig een andere stap. We hebben het over de huisstijl van de Provincie, dus wil je wel dat diezelfde iconen ‘overal’ kunnen opduiken? Het is niet de bedoeling dat andermans uitingen met die van jou worden geassocieerd.

Voortschrijdend inzicht op grond van die afwegingen, zijn de oorzaak dat men is teruggekeerd van de oorspronkelijke goede intentie. Dat is goed, al is het resultaat dat er jammer genoeg toch geen CC licentie aan de iconenset hangt. Een experiment is precies dat: een experiment, en dat betekent dat je ook kunt concluderen dat het niet voldeed.

Er zijn natuurlijk opener, minder open, en meer gesloten vormen van CC licenties. Dat is het hele punt van CC: dat je selectief op voorhand voor bepaalde hergebruiksvormen al toestemming verleent, zonder dat iedereen dat bij de auteursrechthebbende moet vragen. Van alle rechten voorbehouden naar sommige rechten voorbehouden.

Het blijft lovenswaardig dat het communicatieteam de intentie had en heeft om met CC te werken. En het is heel prettig dat er contact is opgenomen, dat praat makkelijker. Hopelijk leidt het er toe dat bij een volgende kans er wel een CC licentie gehanteerd kan worden.

In algemene zin, zou het helpen als het Ministerie van BZK, als houder van het dossier rond open overheid en open data, en de directie van decentrale overheden zoals een provincie hier sterker sturend in zouden zijn. Dan zijn experimenten niet nodig, en ontstaat er ook geen angst of zorg op de werkvloer voor mogelijk onbedoelde gevolgen, waardoor je voorzichtige terugtrekkingen als dit krijgt. Die voorzichtigheid is een normale voorspelbare menselijke reactie, maar die kun je in je organisatie onnodig maken. BZK stelt al als beleidslijn dat CC0 en CCBY voor data publicaties gehanteerd moeten worden. Open standaarden zijn al 11 jaren verplicht (maar weinig overheden houden zich daaraan in de praktijk). Het hanteren van een eenduidige praktische interpretatie van de auteurswet ook voor creatieve uitingen van overheden en de daarmee verbonden logische licentiekeuzes door BZK, en het bekrachtigen daarvan door het bestuur van decentrale overheden zou hier helpen. Er is voldoende ervaring inmiddels om het BZK mogelijk te maken hierin normerend op te treden.

Voor overheidsdata is het al lange tijd de landelijke norm dat daarvoor een Creative Commons 0 licentie, of ten hoogste een Creative Commons Naamsvermelding licentie wordt gebruikt. Dat betekent dat iedereen voor elk gebruiksdoel de gepubliceerde materialen mag hergebruiken. Voor andere dingen die overheden gebruiken, zoals ontwerp-elementen uit de huisstijl is dat niet het geval.

De Provincie Overijssel geeft nu een goed voorbeeld hoe je ook naast data hergebruik mogelijk kunt maken van ander materiaal dat met publiek geld is gerealiseerd. Op de site provicons.nl zijn de ruim 200 iconen die onderdeel uitmaken van de huisstijl van de provincie beschikbaar gesteld voor hergebruik. Als je een icoon downloadt krijg je het in 5 bestandsformaten aangeleverd (svg, ai, emf, jpg, png).

Op deze iconenset berust een Creative Commons licentie, de rechten liggen dus bij de provincie Overijssel, maar iedereen die de iconen wil gebruiken, krijgt van Overijssel toestemming om dit werk te verspreiden, met anderen te delen of te bewerken.

De Provincie Overijssel verdient complimenten voor deze stap.
De enige kanttekening is dat nog niet expliciet is gemaakt welke Creative Commons licentie er van toepassing is. Uit de bovenstaande tekst is op te maken dat afgeleide werken zijn toegestaan, maar bijvoorbeeld niet of dat ook voor commercieel hergebruik geldt, of dat verwacht wordt dat je een afgeleid werk onder gelijke condities weer deelt. Ook is nog niet helder of naamsvermelding van de Provincie als oorspronkelijke maker vereist is.

Ik heb de Provincie een mail gestuurd met de vraag of ze nog expliciet kunnen aangeven welke Creative Commons licentie geldt voor de iconen. Hopelijk hanteren ze net als bij hun data een CC0 of CC-BY licentie.

Een van de iconen, voor recreatie, die door de Provincie Overijssel beschikbaar is gesteld. (licentie CC, onbekend)