Et toi, c'est quoi ton FloC Id ?

En Août 2019, lorsque Google présente son projet pour un web plus respectueux de la vie privée, on pense à une blague.  

Ou à une action de communication pour riposter face aux critiques croissantes sur le manque d'éthique du géant qui commercialise nos données personnelles.

Je crois à une troisième hypothèse plus simple : le vent tourne.

La réglementation sur la protection des données personelles se durcit. Et tout le monde a désormais conscience de la généralisation du flicage sur Internet. Ces tendances risquent de ralentir le flux des données personnelles qui sont à la source des revenus de Google.

Dans un sondage IFOP réalisé en novembre 2018 sur la perception de l'Intelligence Artificielle, les deux principaux sujets d'inquiétude qui ressortent sont :

  • la potentielle destruction des emplois,
  • et les risques en terme de sécurité privée et de protection des données.

Ces craintes motivent des choix d'outils qui revendiquent l'absence de collecte des données personnelles.

Les cookies, ces traceurs permettant de pister l'activité des utilisateurs, ont acquis une image trouble à cause des bannières de consentement que l'on accepte comme on signe un contrat d'assurance  (= sans lire toutes les petites lignes de l'annexe de 30 pages).

Peu à peu, les navigateurs bloquent par défaut ces traceurs.

Sans cookie, les algorithmes de ciblage publicitaire et de re-targetting disposent de moins de données. Ils sont donc moins performants, et donc moins rentables.

Mais les annonces de Google ne se sont pas arrêtées là.

La fin des cookies, le début des cohortes

En janvier 2020, Google enfonce le clou et annonce renoncer aux cookies publicitaires d'ici 2022.

"Si la publicité en ligne n’évolue pas pour répondre aux inquiétudes croissantes des gens à propos de leur vie privée et de l’utilisation de leur identité sur le Web, nous risquons de mettre en danger l’avenir du Web ouvert et gratuit" – David Temkin, directeur produit, publicités et vie privée de Google.

Derrière cette annonce pleine d'empathie se cache un projet : développer une nouvelle technologie de ciblage publicitaire, permettant de capter encore davantage ce juteux marché.

Le nom de cette technologie : FLoC, acronyme de Federated Learning of Cohorts.

Voila comment ça marche :

Le navigateur mémorise tout votre historique de navigation. Avec ces données personnelles, un algorithme de clustering non centralisé (SimHash) vous range dans une cohorte. Il s'agit d'une catégorie regroupant toutes les personnes qui ont les mêmes centres d'intérêt que vous.

En quoi est-ce plus respectueux de la vie privée (d'après Google) ?

  • les données personnelles restent dans votre navigateur, et ne sont pas envoyées vers les serveurs de Google
  • on assure qu'il y a un nombre suffisant de personnes dans une cohorte pour empêcher de les identifier. On est anonyme, "caché dans la foule".

L'enjeu technique consiste à mettre au point cet algorithme de clustering décentralisé, et à forcer chaque utilisateur à le faire tourner sur son ordinateur ou son smartphone.

Pour cela Google dispose d'un avantage de taille : Chrome. Ce navigateur internet est le plus utilisé, sur PC comme sur mobile. C'est l'endroit parfait pour héberger le calcul de cohorte.

Cette nouvelle méthode a suscité une vague de réactions plutôt méfiantes, voire hostiles.

  • Pour compter le nombre de personnes appartenant à une cohorte, il faut un serveur élégamment baptisé "anonymity server".  Ce serveur a besoin d'une partie des informations personnelles de chaque utilisateur pour faire son recensement. Nos données personnelles vont donc quand même partir vers les serveurs de Google.
  • Pour connaître les caractéristiques d'une cohorte (est-ce ceux qui aiment le vélo ? les camions ?), il faudra demander à Google. Ou utiliser leur algorithme (public) pour trouver le numéro de cohorte correspondant à un domaine d'intérêt. Google définit ainsi les règles de fonctionnement de la segmentation sur Internet qui attribue à chacun un profil public de consommateur.
  • On pourra obtenir le numéro de cohorte d'un visiteur en appelant l'API Javascript document.interestCohort() et personnaliser la page en y ajoutant des publicités ciblées. Les possibilités de dérive ne manquent pas, pour annoter par exemple des candidatures en ligne : "il postule sur un poste de chef de projet, mais il est dans la cohorte n° 2435 (aïe, profil heavy-métal et porno)".  

Une expérimentation a été lancée auprès de 0.5% des utilisateurs de Chrome aux US, choisis au hasard sans leur demander leur avis (ce site permet de savoir si l'on figure parmi les élus). Elle a conduit à identifier environ 33,000 cohortes.

Comment s'en prémunir ?

Alors voila le truc.

En 2022, plus de cookie, mais des cohortes.

Chacun son numéro de cohorte. Avec sa publicité à lui. Bien ciblée.

Comme c'est codé dans Google Chrome, il y a un moyen simple de refuser d'y participer : utiliser un autre navigateur Internet. Cependant, les produits de Google sont omniprésents (Gmail, Google maps, Google Drive...), et les alternatives n'ont pas toujours le même niveau de performance ou de fonctionnalité.

Pour les éditeurs de sites internet (et de SaaS), il existe un moyen pour indiquer à Chrome que l'on ne souhaite pas alimenter l'algorithme de clustering et rejeter l'appel à l'API en ajoutant une clé dans le header de la page :

Permissions-Policy: interest-cohort=()

Quel risque ?

Ça donne quand même un peu l'impression de remplacer un traceur par un autre.

Qui est peut-être plus pernicieux :  vous visitez mon site, et je récupère votre numéro de cohorte. C'est le 2345.

Ensuite je paie Google en lui demandant : quel est le profil de la cohorte n° 2345 ?

J'obtiens immédiatement une réponse : femme blanche de 55 ans en Loire Atlantique, a fait des achats sur des sites comme La Redoute pour des pantalons et tailleurs.

Hé hé, je ne connais pas votre nom Madame, mais j'en sais beaucoup. Je vous vois. Je vous connais. Voici ma publicité...


Pour en savoir plus à propos de l'algorithme de Floc :

google/ads-privacy
Contribute to google/ads-privacy development by creating an account on GitHub.

Et pour les détails techniques :