La traduction automatique : … petits tracas pour l’analyse

Dans le précédent article de notre dossier, La traduction automatique : analyse des petits tracas, vous avez pu découvrir les problèmes liés à la traduction automatique les plus récurrents et leurs causes. Dans cette quatrième et dernière partie, vous comprendrez plus précisément les possibles conséquences de l’analyse des messages clients traduits et comment remédier à ces difficultés avec l’expertise de notre équipe linguistique.

Les risques de la traduction automatique préalable à l’analyse des verbatim

1. La sur-détection des concepts ou les concepts non détectés

Concept non détecté analyse verbatim roumain traduit automatiquement (Illustration roumain)

Langue traduite : roumain

Sur-détection concepts analyse verbatim portugais traduit automatiquement (Illustration portugais)

Langue traduite : portugais

Dans le cas du verbatim en roumain aucun concept ne pourra être détecté. En ce qui concerne le verbatim en portugais, le concept concernant le personnel ne sera pas identifié sur le verbatim mal traduit.

2. Les altérations de sens et/ou de tonalité

Altération sens analyse verbatim tchèque traduit automatiquement (Illustration tchèque)

Langue traduite : tchèque

Altération sens, tonalité analyse verbatim arabe traduit automatiquement (Illustration arabe)

Langue traduite : arabe

Le sens du verbatim en tchèque a été véritablement impacté puisque, dans ce cas, l’analyse aurait détecté une tonalité négative concernant le comportement du personnel.

La traduction du verbatim arabe altère complètement le sens du verbatim. Les règles de grammaires utilisées pour l’analyse vont ici détecter la tonalité négative alors qu’initialement le client exprimait sa satisfaction envers le service concerné.

3. Les terminologies non reconnues

Il arrive aussi que le traducteur automatique se trompe sur la majorité voire la totalité des verbatim qui contiennent la terminologie spécifique au domaine. Dans la perspective de l’analyse des verbatim, ceci peut avoir une influence sur la distribution des concepts et des tonalités.

Terminologie non reconnue analyse verbatim turc traduit automatiquement (Illustration turc 1)

Langue traduite : turc

Terminologie non reconnue analyse verbatim turc traduit automatiquement (Illustration turc 2)

Langue traduite : turc

De ces deux exemples de verbatim en turc, on peut légitimement déduire que :
– dans le corpus d’entrainement du modèle de traduction automatique, la correspondance « scie » => « testere » était plus fréquente
– le modèle n’a jamais (ou peu) rencontré le mot « testeur » = « tester » et il a fait des rapprochements morphologiques, ce qui l’a amené à confondre le « testeur » avec la « scie ».

Terminologie non reconnue analyse verbatim allemand traduit automatiquement (Illustration allemand)

Langue traduite : allemand

Terminologie non reconnue analyse verbatim allemand traduit automatiquement (Illustration allemand 2)

Langue traduite : allemand

Terminologie non reconnue analyse verbatim roumain traduit automatiquement (Illustration roumain)

Langue traduite : roumain

Terminologie non reconnue analyse verbatim roumain traduit automatiquement (Illustration roumain 2)

Langue traduite : roumain

À travers les exemples précédents, on peut observer que les règles qui sont censées s’appliquer concernant la thématique des testeurs et des échantillons ne fonctionneront pas puisque les verbatim traduits ne contiennent plus du tout les substantifs « testeurs » ou « échantillons ». Il y a donc une réelle perte d’informations importantes qui étaient contenues dans le verbatim de départ.

4. Les altérations de l’intensité des sentiments

Dans certains cas, la traduction va aussi influencer l’intensité des sentiments. Pour ces exemples, le « vocabulaire » du modèle est trop restreint : il va se limiter aux mots rencontrés dans le corpus d’entraînement. Cela va ainsi produire une traduction peu précise qui va modifier l’intensité des sentiments exprimés dans les verbatim originaux.

Altération intensité sentiments analyse verbatim arabe traduit automatiquement (Illustration arabe)

Langue traduite : arabe

Altération intensité sentiments analyse verbatim slovaque traduit automatiquement (Illustration slovaque)

Langue traduite : slovaque

Quelle solution choisir pour l’analyse des verbatim en plusieurs langues ?

Les caractéristiques des langues et des couples de langues, des critères décisifs

Les exemples évoqués dans la première partie de cet article montrent les difficultés pouvant survenir lors de l’analyse automatique d’un corpus pré-traduit. Chaque langage naturel est unique et chaque couple de langues est aussi unique dans son comportement lors de la traduction.

Par exemple, les performances seront tout à fait différentes pour les modèles anglais-français et turc-français. Deux phrases ayant le même sens rédigées en turc et en anglais risquent ainsi de ne pas être traduites de la même façon en français. D’où la diversité des traductions possibles (et parfois avec des résultats pas très naturels !).

L’expertise linguistique pour exploiter toutes les informations issues des verbatim

Comme nous avons pu le constater, les traductions automatiques ne sont pas toutes réussies. Dans ces cas-là, il y a une forme de perte de la notion de langage naturel car la plupart des verbatim ne remplissent pas les conditions de langage parlé/écrit par un humain et il est quasi impossible pour un humain d’anticiper les variants proposés par un modèle de traduction non abouti.

En tant que linguistes au sein d’ERDIL, quand nous travaillons directement sur le texte du verbatim original, nous utilisons nos connaissances de la langue naturelle pour essayer d’anticiper les synonymes, les négations et l’orthographe des structures récurrentes. Lorsque nous construisons nos grammaires d’analyse, nous nous appuyons non seulement sur la langue elle-même mais aussi sur les spécificités des sociétés ou des pays en question. Très souvent au sein d’un même projet international, on retrouve des concepts qui peuvent être perçus différemment ou des problématiques qui ne sont pas présentes dans d’autres pays.

Pour éviter ces écueils et conserver une qualité optimale, chez ERDIL, nous favorisons ainsi une analyse des verbatim dans la langue initiale et nous vous encourageons à recourir à cette méthode lorsque cela est possible. Actuellement, notre équipe linguistique est capable de traiter nativement les verbatim en 20 langues et depuis la création de la société, nous étendons cette capacité en ajoutant de nouveaux langages sur lesquels nous appuyer.

Et dans le cas où un passage par un outil de traduction automatique est inévitable, ce dossier autour de la linguistique et de la traduction automatique vous permet maintenant de disposer de quelques éléments importants à prendre en compte pour mieux comprendre le fonctionnement des outils et d’utiliser des modèles de traduction appropriés. 🙂

Date

03 octobre 2023

Auteur
Portrait collaborateur Oksana (Illustration)

Oksana Mishchenko