YouMean : l'analyse sémantique de textes par l'IA

Hervé Rincent

Hervé Rincent

23 oct. 2021

SenseFab est une start-up dont l'ambition est de mettre l'IA au service de l'analyse sémantique de documents textes ou de tweets.

Comment cerner les thèmes principaux qui ressortent d'une enquête totalisant des milliers de verbatims ?

Comment dégager les valeurs et les idées d'un rapport d'activité d'une entreprise comportant des dizaines de pages ?

C'est ce type de question adressée par YouMean : un logiciel en mode SaaS qui conjugue l'IA avec des innovations d'UX/UI afin de comprendre en quelques minutes le sens d'un texte.

Graphe sémantique

En équipe avec un autre développeur, j'ai travaillé sur le front-end (en VueJS) et sur le backend (en Python) pour transformer le prototype initial en un produit commercialisable.

Codage du graphe sémantique

Le graph sémantique est graphe force-directed dont les noeuds sont des noms et des adjectifs fréquents, et dont les liens reflètent la fréquence de co-occurence.

Les couleurs sont le résultats d'un algorithme de clustering qui recherche des communautés dans le graphe par la méthode de Louvain, à laquelle j'ai ajouté la possibilité de forcer le nombre de clusters souhaités.

L'affichage s'appuie sur la bibliothèque Javascript D3js, qui optimise le placement des noeuds, et les rend déplaçables pour aménager le rendu graphique.

Ajout d'un modèle d'IA zero-shot pour l'analyse de sentiment.

Pour réaliser l'analyse sémantique à la vitesse de la lumière, on s'appuie sur une version customisée de Spacy. Les batchs d'analyse sont distribués en parallèle par une Job Queue Redis pour exploiter au mieux les ressources matériels des serveurs.

En complément, on orchestre avec Apache AirFlow un modèle d'IA BERT/Transfomers entraîné sur un dataset XLNI publié par Facebook. Ce modèle  sert à l'analyse de sentiment, mais possède bien d'autres atouts pour la classification.

Le datalab pour explorer et annoter les phrases

Technologies utilisées

L'architecture découple classiquement le backend doté d'API documentées par OpenAPI, et le frontend qui dialogue par des requêtes XHR.

Coté backend :

Coté Front-end :


Continuer la lecture

Skills : piloter l'acquisition des compétences collectives de son équipe

7 janv. 2022

2 min read

Skills : piloter l'acquisition des compétences collectives de son équipe

Lire l'article
Pilotage des activités de maintenance

16 nov. 2020

2 min read

Pilotage des activités de maintenance

Lire l'article
Inscription à la newsletter

Recevez chaque semaine un article pour réfléchir à votre prochain projet tech/data

gratuit, sans spam, désinscription en 1 clic

Merci ! Regardez dans botre boite mail. Un lien de confirmation n'attend plus que votre clic.
Arghh il semble compliqué de vous ajouter à la liste de diffusion. Et si vous m'envoyiez un mail directement à contact@camilab.co ?