Un douanier numérique pour les voitures autonomes

Hervé Rincent

Hervé Rincent

20 oct. 2020

Connaissez-vous le service de Google nommé "reCAPTCHA" ?

Probablement.

Il s'agit d'un outil que l'on trouve un peu partout permettant de vérifier que vous n'êtes pas un robot...

Prenons une seconde pour relire deux fois cette phrase.

Un outil qui s'assure que celui qui se trouve derrière l’écran n'est pas un robot.

On en est donc arrivé à un point ou il faut mettre des sortes de douaniers numériques pour contrôler qu'un site n'est pas scrappé ou qu'un formulaire en ligne n'est pas spammé.

Les auteurs du crime ? Ces BOTs qui parcourent le web à la recherche d'informations (dans le meilleur des cas) ou de failles de sécurité (dans le pire).

Et c'est loin d'être une quantité négligeable, puisqu'ils représentent en moyenne un tiers des visites d'un site internet !

% du traffic issu des bots

Pour prévenir les visites ou actions illicites de ces robots, Google (qui par ailleurs a l'armée de bots la plus active, bon passons...) propose le "reCAPTCHA". Ce service assure que celui qui utilise le formulaire est une vraie personne, animée d'intentions louables et d'un porte-monnaie potentiellement garni.

Le principe est simple :

On présente à l'utilisateur des images, et il doit sélectionner celles qui correspondent à un critère.

Par exemple, trouver toutes les images comportant un passage piéton. On considère que si l'utilisateur y parvient, dans certain délai et selon une cadence acceptable, il s'agit probablement d'une vraie personne.

Google recaptcha

Et mieux encore, c'est un service gratuit jusqu'à 1M de vérifications / mois, ce qui constitue une limite particulièrement généreuse.

Google serait donc généreux ?

On se doute bien qu'il y a une intention cachée derrière cette générosité.

Et elle n'est pas difficile à imaginer. En fournissant ce service (presque) gratuitement, Google se constitue un immense jeu de données afin d’entraîner des algorithmes d'Intelligence Artificielle à analyser des images.

A chaque vérification réalisée, il obtient une indication sur la présence ou non d'un passage piéton sur l'image. Idem pour les feux de signalisation.

Dans quel but ? Peut-être le développement des logiciels dédiés aux voitures autonomes.

C'est ce que j'appelle "l'intention d'IA".

L'intention d'IA, c'est intégrer dès le début d'un projet de développement logiciel la constitution d'un jeu de données utile plus tard au deep-learning .

Cette démarche est-elle réservée aux géants de la tech ?

L'exemple de la collecte des feuilles de frais.

Chaque mois, tous vos collègues regroupent leurs justificatifs de frais professionnels pour les envoyer à un service administratif qui va gérer les remboursements sur salaire.

Pour beaucoup de petites entreprises, c'est fait à la main. On photocopie, et on met au courrier.

Une solution numérique consiste à prendre la photo des justificatifs avec son smartphone et compléter un petit formulaire pour dématérialiser la collecte des données et leur validation par le manageur. Le service administratif dispose facilement des justificatifs. Mais il lui faut encore enrichir les données :

Il est possible de voir plus loin.

Une solution numérique avec une intention d'IA consiste à profiter de cette première étape pour constituer un jeu de données de bonne qualité associant la photo du justificatif avec les données qu'il contient : montant, type de dépense, TVA, date, ...

Après quelques mois d'utilisation, on disposera d'un bon point de départ pour entraîner un modèle d'IA à extraire les informations de la photo du justificatif pour pré-remplir le formulaire.

Ainsi, le projet est au début justifié par la volonté de résoudre les problèmes de temps perdu et de feuilles de frais égarées, mais son intention d'IA est d'automatiser le classement.

Comment mettre l'intention d'IA dans son projet ?

J'observe en général 3 étapes :

#1 Réfléchir aux innovations potentielles permises par les données et les actions des utilisateurs.

Reprenons l'exemple des feuilles de frais. L'utilisateur a la possibilité de supprimer le scan d'une feuille de frais saisie par erreur en double.

Cette action de suppression mérite d'être mémorisée car elle pourrait entraîner un modèle d'IA à détecter les doublons. Au moment de la suppression, demandons à l'utilisateur la raison pour laquelle il supprime la photo, avec 3 choix possibles en un clic pour que ça reste rapide.

#2 Constituer des datasets cohérents

L'objectif est de mémoriser les liens entre les données, autant que les données elles-mêmes.

Il faut que l'image supprimée + la raison de la suppression soient des informations reliées aux autres images précédemment chargées. On codera donc le projet de façon à préserver ces précieux liens entre les données.

#3 Archiver

Les 2 points précédents concernaient la qualité des données. Mais la quantité de données pèse également dans la performance d'un modèle d'IA. On pourra définir dès le début du projet une politique d'archivage simple : on garde tout.

Les téra-octets sont bon marché. Mais il faut tenir compte des exigences de la réglementation sur les données personnelles, et sur le droit à l'oubli. L'archivage passe donc par l'anonymisation des données : on enlève toutes les données personnelles, on rend imprécis les coordonnées GPS, etc...

Ainsi, pour chaque projet, quel que soit son avancement, ça vaut la peine de réfléchir aux innovations permises par les données qu'il gère et par les interactions des utilisateurs.

Ces innovations peuvent déboucher sur des modèles d'IA performants sans besoin de lourds moyens. Ils peuvent donner naissance à des fonctionnalités nouvelles.

Ou à des usages complètement différents, comme ces filtres anti-robots qui servent aux voitures autonomes !


Continuer la lecture

Arrêtez de demander des prix. Fixez-les.

27 oct. 2020

4 min read

Arrêtez de demander des prix. Fixez-les.

Lire l'article
On est quand même bien à la maison

13 oct. 2020

4 min read

On est quand même bien à la maison

Lire l'article
Inscription à la newsletter

Recevez chaque semaine un article pour réfléchir à votre prochain projet tech/data

gratuit, sans spam, désinscription en 1 clic

Merci ! Regardez dans botre boite mail. Un lien de confirmation n'attend plus que votre clic.
Arghh il semble compliqué de vous ajouter à la liste de diffusion. Et si vous m'envoyiez un mail directement à contact@camilab.co ?