Analyse automatique des messages clients : comment évaluer les performances ?

Catégorie(s) : L'expertise linguistique

En tant qu’éditeur de solutions de text-mining, nous sommes régulièrement interrogés sur le niveau de fiabilité des analyses sémantiques automatiques. Je vous propose donc d’aborder le sujet de l’évaluation d’un système d’analyse automatique.

Préambule

Les solutions développées par ERDIL détectent automatiquement les informations pertinentes contenues dans les messages clients, que nous appelons « concepts », et les tonalités liées à ceux-ci (positive, négative, neutre).

Les questions que nos clients et futurs clients se posent sont donc : quelles mesures permettent d’évaluer les performances de nos solutions, et comment les obtient-on ?

Afin d’apporter des réponses concrètes et de garantir le maintien de notre qualité d’analyse au cours du temps, nous utilisons deux mesures bien connues : le rappel et la précision.

Pour réaliser cette évaluation, l’expert linguiste sélectionne aléatoirement un corpus de verbatim analysés et comptabilise les valeurs suivantes :

  • détections correctes : informations correctement détectées
  • détections fausses : informations détectées à tort
  • détections manquantes : informations non détectées, mais qui auraient dû l’être

Rappel :

Le rappel évalue la capacité d’un système automatique à repérer un maximum d’informations correctes par rapport au nombre total d’informations présentes.
Il est calculé ainsi : détections correctes / (détections correctes + détections manquantes)

Précision :

La précision évalue la capacité d’un système automatique à minimiser le nombre d’informations détectées à tort.
Il est calculé ainsi : détections correctes / (détections correctes + détections fausses)

En règle générale, les systèmes d’analyse automatique tendent à privilégier soit le rappel, soit la précision.

De façon logique, lorsque l’on cherche à améliorer le rappel en augmentant le nombre d’informations correctes détectées, le nombre de détections fausses (appelé « bruit ») va également augmenter, et par conséquent la précision décroître.

Inversement, si l’on souhaite optimiser la précision, on va chercher à détecter uniquement les informations dont on est certain qu’elles sont correctes, ce qui aura pour incidence un nombre d’informations manquantes (appelé « silence ») plus élevé, et donc un rappel moins important.

Chez ERDIL, nous avons décidé de privilégier la précision par rapport au rappel. En effet, à partir des résultats que nous apportons à nos clients, ceux-ci tirent des conclusions, établissent des plans d’actions, diffusent des rapports… Les données de départ doivent donc être extrêmement fiables. En outre, les taux de rappel que nous atteignons sont suffisamment élevés pour que les résultats, en plus d’être fiables, soient également tout à fait représentatifs.

Identifier les éléments de satisfaction et d’insatisfaction dans les messages clients

Les indicateurs permettant d’évaluer des systèmes d’analyse automatique comme le rappel et la précision sont très faciles à appliquer lorsqu’il s’agit d’identifier des informations simples et totalement objectives, comme des entités nommées (noms de ville, de marques, d’entreprises…). C’est en revanche plus complexe dans le cas d’informations telles que celles qui nous intéressent dans ce billet : les éléments de satisfaction/insatisfaction contenus dans les messages clients.

1/ La première difficulté est liée au fait que notre solution ne s’arrête pas à la détection d’informations « isolées », mais extrait des « couples » d’informations ‘concept + tonalité’.
Prenons par exemple le message client suivant : « le technicien n’a pas été capable de refaire fonctionner ma box »
Ici, le résultat attendu, et qui sera donc comptabilisé comme une « détection correcte » est la détection du concept « Compétence » avec la tonalité « négative ». S’il est évident que l’absence de ce concept serait considéré comme une « détection manquante », et que la détection d’un autre concept que celui-ci serait comptabilisé comme une « détection fausse », il nous faut également évaluer les cas où :

  • ‘Compétence’ a été correctement détecté, mais avec la tonalité manquante (neutre au lieu de négative)
  • ‘Compétence’ a été correctement détecté, mais avec la mauvaise tonalité (positive au lieu de négative)

2/ Un autre cas particulier qui pose un problème d’évaluation est celui où un concept et sa tonalité ont été correctement détectés, mais un concept plus précis aurait pu être trouvé.
Imaginons un concept « Relation avec le conseiller », qui contiendrait les sous-concepts « Amabilité », « Compétence », et « Écoute ».
Reprenons maintenant notre exemple : « le technicien n’a pas été capable de refaire fonctionner ma box »
La détection du concept parent « Relation avec le conseiller », à la place du concept plus précis « Compétence », ne peut être comptabilisée de la même façon que la détection d’un concept totalement erroné.

Nous avons mis en place des règles nous permettant d’évaluer les deux cas ci-dessus. Cependant, il reste des cas de figure où une certaine subjectivité est inévitable.

3/ Le degré de finesse des informations recherchées implique une proximité dans les définitions de certains concepts. Ce que notre système détecte ne sont pas des informations binaires mais des concepts dont les définitions peuvent se recouvrir partiellement. Ainsi, au moment d’arbitrer entre correct et erroné, la sensibilité de chacun joue lorsque l’expression utilisée par le client se situe « à la limite » de la définition du concept.
Exemple : « la conseillère était vraiment très attentive à ce que je lui demandais »
Si tout le monde sera d’accord pour classer ce concept dans la tonalité « positive » et le concept parent « Conseiller », combien classeront plutôt ce verbatim dans le sous-concept « Amabilité » pendant que d’autres opteront pour « Ecoute du client » ?

4/ Pour finir, même si nous développons nos solutions d’analyse de façon à détecter l’ensemble des informations avec la même efficacité, il faut bien admettre que tous les concepts « ne se valent pas ». Ainsi, passer à côté d’une alerte (risque d’attrition par exemple) est davantage préjudiciable que de « louper » la mention de sa fidélité par le client.
Faudrait-il alors appliquer un « poids » spécifique en fonction de l’importance des concepts ?

Nous n’irons pas jusque là, mais ces quelques exemples montrent bien que l’évaluation des performances d’une analyse automatique est une tâche complexe qui restera toujours sujette à discussion…

 

Date

11 juin 2015

Auteur
Portrait collaborateur Guillaume (Illustration)

Guillaume Robardet