Et toi, c'est quoi ton FloC Id ?

Hervé Rincent

Hervé Rincent

4 mai 2021

En Août 2019, lorsque Google présente son projet pour un web plus respectueux de la vie privée, on pense à une blague.  

Ou à une action de communication pour riposter face aux critiques croissantes sur le manque d'éthique du géant qui commercialise nos données personnelles.

Je crois à une troisième hypothèse plus simple : le vent tourne.

La réglementation sur la protection des données personelles se durcit. Et tout le monde a désormais conscience de la généralisation du flicage sur Internet. Ces tendances risquent de ralentir le flux des données personnelles qui sont à la source des revenus de Google.

Dans un sondage IFOP réalisé en novembre 2018 sur la perception de l'Intelligence Artificielle, les deux principaux sujets d'inquiétude qui ressortent sont :

Ces craintes motivent des choix d'outils qui revendiquent l'absence de collecte des données personnelles.

Les cookies, ces traceurs permettant de pister l'activité des utilisateurs, ont acquis une image trouble à cause des bannières de consentement que l'on accepte comme on signe un contrat d'assurance  (= sans lire toutes les petites lignes de l'annexe de 30 pages).

Peu à peu, les navigateurs bloquent par défaut ces traceurs.

Sans cookie, les algorithmes de ciblage publicitaire et de re-targetting disposent de moins de données. Ils sont donc moins performants, et donc moins rentables.

Mais les annonces de Google ne se sont pas arrêtées là.

La fin des cookies, le début des cohortes

En janvier 2020, Google enfonce le clou et annonce renoncer aux cookies publicitaires d'ici 2022.

"Si la publicité en ligne n’évolue pas pour répondre aux inquiétudes croissantes des gens à propos de leur vie privée et de l’utilisation de leur identité sur le Web, nous risquons de mettre en danger l’avenir du Web ouvert et gratuit" – David Temkin, directeur produit, publicités et vie privée de Google.

Derrière cette annonce pleine d'empathie se cache un projet : développer une nouvelle technologie de ciblage publicitaire, permettant de capter encore davantage ce juteux marché.

Le nom de cette technologie : FLoC, acronyme de Federated Learning of Cohorts.

Voila comment ça marche :

Le navigateur mémorise tout votre historique de navigation. Avec ces données personnelles, un algorithme de clustering non centralisé (SimHash) vous range dans une cohorte. Il s'agit d'une catégorie regroupant toutes les personnes qui ont les mêmes centres d'intérêt que vous.

En quoi est-ce plus respectueux de la vie privée (d'après Google) ?

L'enjeu technique consiste à mettre au point cet algorithme de clustering décentralisé, et à forcer chaque utilisateur à le faire tourner sur son ordinateur ou son smartphone.

Pour cela Google dispose d'un avantage de taille : Chrome. Ce navigateur internet est le plus utilisé, sur PC comme sur mobile. C'est l'endroit parfait pour héberger le calcul de cohorte.

Cette nouvelle méthode a suscité une vague de réactions plutôt méfiantes, voire hostiles.

Une expérimentation a été lancée auprès de 0.5% des utilisateurs de Chrome aux US, choisis au hasard sans leur demander leur avis (ce site permet de savoir si l'on figure parmi les élus). Elle a conduit à identifier environ 33,000 cohortes.

Comment s'en prémunir ?

Alors voila le truc.

En 2022, plus de cookie, mais des cohortes.

Chacun son numéro de cohorte. Avec sa publicité à lui. Bien ciblée.

Comme c'est codé dans Google Chrome, il y a un moyen simple de refuser d'y participer : utiliser un autre navigateur Internet. Cependant, les produits de Google sont omniprésents (Gmail, Google maps, Google Drive...), et les alternatives n'ont pas toujours le même niveau de performance ou de fonctionnalité.

Pour les éditeurs de sites internet (et de SaaS), il existe un moyen pour indiquer à Chrome que l'on ne souhaite pas alimenter l'algorithme de clustering et rejeter l'appel à l'API en ajoutant une clé dans le header de la page :

Permissions-Policy: interest-cohort=()

Quel risque ?

Ça donne quand même un peu l'impression de remplacer un traceur par un autre.

Qui est peut-être plus pernicieux :  vous visitez mon site, et je récupère votre numéro de cohorte. C'est le 2345.

Ensuite je paie Google en lui demandant : quel est le profil de la cohorte n° 2345 ?

J'obtiens immédiatement une réponse : femme blanche de 55 ans en Loire Atlantique, a fait des achats sur des sites comme La Redoute pour des pantalons et tailleurs.

Hé hé, je ne connais pas votre nom Madame, mais j'en sais beaucoup. Je vous vois. Je vous connais. Voici ma publicité...


Pour en savoir plus à propos de l'algorithme de Floc :

google/ads-privacy
Contribute to google/ads-privacy development by creating an account on GitHub.

Et pour les détails techniques :


Continuer la lecture

Des modèles intelligibles

11 mai 2021

4 min read

Des modèles intelligibles

Lire l'article
De quoi ça parle ?

27 avr. 2021

6 min read

De quoi ça parle ?

Lire l'article
Inscription à la newsletter

Recevez chaque semaine un article pour réfléchir à votre prochain projet tech/data

gratuit, sans spam, désinscription en 1 clic

Merci ! Regardez dans botre boite mail. Un lien de confirmation n'attend plus que votre clic.
Arghh il semble compliqué de vous ajouter à la liste de diffusion. Et si vous m'envoyiez un mail directement à contact@camilab.co ?