La traduction automatique : analyse des petits tracas…

Dans le troisième article de notre dossier sur la linguistique et la traduction, nous vous proposons de découvrir les différents problèmes rencontrés lors de l’utilisation d’outils de traduction automatique s’appuyant sur des modèles encore trop imprécis, à travers de nombreux exemples parfois particulièrement insolites et drôles…

Quel rapport entre traduction automatique et analyse des verbatim ?

Chez ERDIL, notre méthode d’analyse s’appuie sur les connaissances de la langue et le texte du verbatim. Comme nous l’avons évoqué dans l’article précédent de ce dossier, La traduction automatique : entre idéal, progrès et complexité, les modèles de traduction automatique peuvent éprouver plus de difficultés à disposer de cette connaissance profonde et synchronisée de deux ou plusieurs langues pour transposer précisément le sens d’une phrase dans une autre langue.

Le problème principal de la traduction automatique des verbatim est la déformation du sens : aucune analyse ne pourra « restaurer » l’information si elle est perdue ou modifiée au moment de la traduction.

Les exemples de phrases issues de messages clients ci-dessous illustrent les différents aléas entraînés par l’utilisation des moteurs de traduction automatique et vous pourrez découvrir, dans le dernier article de notre dossier, leurs répercussions sur les analyses.

La traduction automatique : analyse des petits tracas... : exemple arabe (Illustration exemple)

Langue traduite : arabe

La traduction automatique : analyse des petits tracas... : exemple roumain (Illustration exemple)

Langue traduite : roumain

La différence est flagrante, n’est-ce pas ?

Dans le cas de la traduction automatique, aucun concept (c’est-à-dire thématique associée au verbatim) ne peut être détecté car la traduction est trompeuse et modifie totalement le sens initial alors que dans la version originale et celle avec une traduction correcte, les concepts sont aisément repérés.

Malheureusement l’altération du sens, observable dans les exemples ci-dessus, peut résulter de nombreux facteurs liés à l’imperfection de la conception de modèles de NMT (cf. article précédent).

Dans le premier article de notre dossier, Traduction et linguistique : deux domaines a priori proches mais pourtant bien distincts, nous vous expliquions comment les linguistes de notre équipe construisent leur règles de détection de concepts et de tonalité. La compréhension de ces processus vous permettront de comprendre plus facilement les différents exemples qui viendront compléter petit à petit cet article ; mais aussi le dernier article de notre dossier dans lequel nous détaillerons l’impact des problèmes de traduction automatique sur la qualité des analyses…

1. L’ambiguïté lexicale

Les systèmes de traduction automatique sont en particulier impactés par le problème d’ambiguïté lexicale. Si le moteur de traduction est face à un mot qu’il n’a jamais ou peu rencontré, il va essayer d’en trouver un équivalent parmi ses « connaissances » en fonction de la morphologie ou du lexique de la langue en question.

Ambiguïté lexicale traduction automatique turc (Illustration exemple)

Langue traduite : turc

Ambiguïté lexicale traduction automatique portugais (Illustration exemple)

Langue traduite : portugais

Le mot turc « far » est polysémique et peut signifier « le phare » mais en même temps « le fard à paupière ». Dans le contexte de la distribution de produits cosmétiques, la première traduction est fausse. Puisqu’un « phare » ne fait pas partie de la liste des produits vendus par un magasin de cosmétique aucun concept ne pourra être détecté dans cette phrase traduite.

En ce qui concerne l’exemple en portugais, « a caixa » peut être traduit en français par « la boîte » et « la caisse ». Malheureusement, il est très peu probable que les vendeurs se cachent dans les boîtes et cette erreur de traduction empêche la détection automatique du concept et de sa tonalité (Personnel en caisse + positive). Cependant, les linguistes n’ont aucune difficulté à comprendre le contexte et peuvent ajouter ce substantif dans leur règle.

Malheureusement, certains mots très importants et très récurrents dans le domaine de la vente, par exemple, sont traduits de façon disparate. Chaque couple de langue de traduction dispose de son « vocabulaire » de référence, acquis à partir des données d’entraînement (qui ne sont pas identiques pour l’une et l’autre des langues). Ci-dessous, nous vous proposons quatre exemples de toute la panoplie des variations du mot « conseiller », «employé», etc.

Ambiguïté lexicale traduction automatique danois (Illustration exemple)

Langue traduite : danois

Ambiguïté lexicale traduction automatique portugais (Illustration exemple 2)

Langue traduite : portugais

Ambiguïté lexicale traduction automatique roumain (Illustration exemple)

Langue traduite : roumain

Ambiguïté lexicale traduction automatique tchèque (Illustration exemple)

Langue traduite : tchèque

Des variants d’une même langue ou des dialectes peuvent aussi présenter des différences sémantiques très prononcées.

Ambiguïté lexicale traduction automatique arabe (Illustration exemple)

Langue traduite : arabe

La traduction a été réalisée sur la base de l’arabe standard, alors que le client en question écrivait en arabe marocain. Cette nuance linguistique a été aisément identifiée par nos linguistes arabophones.

Une compréhension humaine parvient à faire la distinction grâce au contexte. Alors que dans le cas de la traduction automatique on peut supposer que ce modèle n’a pas (assez) « rencontré » de contextes différents.

2. La traduction des expressions figées, proverbes…

Chaque langage possède dans son vocabulaire un certain nombre d’expressions qui n’ont pas d’équivalent dans d’autres langues. Ces éléments de la langue peuvent refléter les particularités culturelles, les réalités de la société voire la façon de penser. Parfois, cette intraduisibilité peut concerner uniquement une combinaison des langues spécifiques.

Expressions figées, proverbes traduction automatique arabe (Illustration exemple)

Langue traduite : arabe

Expressions figées, proverbes traduction automatique turc (Illustration exemple 1)

Langue traduite : turc

Dans l’exemple en arabe, la métaphore employée par le client n’a pas d’équivalent exact en français et nécessite d’employer une périphrase ou trouver un équivalent proche.

Tout seul, le mot turc « balık » veut dire « le poisson » et  « etli » peut être traduit comme « charnu ». Alors qu’ensemble ces deux mots forment l’expression figée qui est utilisée pour désigner quelqu’un de rondelet, dodu.

De telles expressions peuvent être très rares pour une langue mais très récurrentes pour d’autres. Par exemple, en turc les clients utilisent souvent le mot « arkadaş » qui dans la traduction littérale veut dire « ami ». Lorsque ce mot est utilisé hors contexte « amical » (quand les personnes concernées ne sont pas amies), le mot « arkadaş » permet de désigner une personne spécifique.

Expressions figées, proverbes traduction automatique arabe (Illustration exemple 2)

Langue traduite : turc

Expressions figées, proverbes traduction automatique arabe (Illustration exemple 3)

Langue traduite : turc

Le substantif « ami » obtenu à la suite de la traduction automatique ne peut pas être inclus dans la grammaire utilisé dans nos analyses pour remplacer « employé » puisque dans la langue cible, cela peut prêter à confusion. Alors que dans le cadre d’une analyse de la langue native, cette particularité de la langue turque n’aurait pas échappée aux linguistes. Nous reviendrons d’ailleurs sur les difficultés d’analyse qu’entraînent ces problèmes de traduction automatique dans le dernier article de ce dossier.

Dans ces cas de figure, la traduction humaine dispose de plus de liberté : le traducteur n’est limité que par son imagination et sa créativité pour traduire de tels éléments. Il peut choisir d’utiliser des périphrases, des emprunts, des néologismes ou une simple explication…

3. Les transformations de syntaxe

Parfois, les outils de traduction automatique produisent aussi des séquences qui ne respectent pas la syntaxe de la langue cible (la langue vers laquelle on traduit). Dans ces cas-là, le sens est très souvent mis à mal et ces phrases deviennent inexploitables par les outils d’analyse sémantique.

Par exemple, on observe souvent de telles déformations lorsque la traduction est faite depuis l’allemand et le néerlandais car ces langues ont une syntaxe différente de la langue cible :

Expressions transformation syntaxe traduction automatique allemand (Illustration exemple)

Langue traduite : allemand

Expressions transformation syntaxe traduction automatique néerlandais (Illustration exemple)

Langue traduite : néerlandais

4. Les rapprochements morphologiques douteux voire complètement ratés

Les fautes de frappe et modifications mal à-propos du correcteur orthographique sont à l’origine de nombreuses Brèves de Verbatim. Avec la traduction automatique, cela prend encore une autre dimension. Avant d’être traduit, le mot mal orthographié est corrigé (souvent par le mot le plus semblable). Les rapprochements morphologiques ne sont pas toujours très réussis, ce qui offre parfois quelques fous rires dans notre open-space.

Expressions transformation rapprochement morphologique douteux traduction automatique suédois (Illustration néerlandais)

Langue traduite : néerlandais

Expressions transformation rapprochement morphologique douteux traduction automatique suédois (Illustration exemple)

Langue traduite : suédois

Dans l’exemple en néerlandais le client a fait deux fautes de saisie :

  • avec les touches « b » et « n » : « biet » au lieu de « niet » l’équivalent de la négation
  • avec l’orthographe du mot désignant l’expression « orienté client » : « klientgericht » à la place de « klantgericht ». Même si «  klientgericht » n’existe pas en hollandais, d’après ses connaissances le traducteur automatique a trouvé le mot le plus vraisemblable.

Pour l’exemple en suédois, le mot « macka » veut dire « sandwich » alors que « mask » est un équivalent de « masque » en français.

Dans le cas de l’analyse directement depuis la langue native, les linguistes prennent en compte les fautes les plus répandues lors de la création des règles.

5. Les mots non traduits

Mots non traduits, traduction automatique portugais (Illustration portugais)

Langue traduite : portugais

Mots non traduits, traduction automatique norvégien (Illustration norvégien)

Langue traduite : norvégien

Il arrive aussi parfois que l’outil de traduction automatique ne soit pas multilingue à la base ou n’arrive pas à distinguer correctement les langues. Dans l’exemple de gauche, l’enquête était diffusée initialement portugais mais le verbatim reçu était en espagnol !

Quant au verbatim en norvégien, il a été collecté via une enquête diffusée en Suède donc le traducteur respectif y a été appliqué. Même si les deux langues se ressemblent au point que le traducteur a été capable de traduire une partie du verbatim (avec des fautes), il a par contre abandonné la traduction en plein milieu de la deuxième phrase.

Les mots non traduits ne résultent pas que d’erreurs provenant de la langue de traduction mais aussi des fautes de saisie et de l’utilisation des emprunts.

Mots non traduits, traduction automatique néerlandais (Illustration néerlandais)

Langue traduite : néerlandais

Mots non traduits, traduction automatique turc (Illustration turc)

Langue traduite : turc

Le traducteur automatique n’est pas toujours capable de trouver une approximation du mot inconnu ainsi il va le retranscrire tel quel comme cela est le cas du mot turc « harika » (en français : « génial »).

Dans le cas du verbatim en néerlandais le client a fait un emprunt au français « fond de teint ».
On peut supposer que l’outil a cherché à corriger ces mots qu’il n’est pas censé traduire, ce qui entraîne des problèmes de traduction !

L’utilisation des emprunts est d’autant plus compliquée qu’on a parfois du mal à connaître leur orthographe correcte dans la langue.

Mots non traduits, traduction automatique turc (Illustration turc)

Langue traduite : turc

Mots non traduits, traduction automatique arabe (Illustration arabe)

Langue traduite : arabe

Le mot emprunté « tester » a été mal orthographié ce qui l’a rapproché de « testis » qui veut dire « testicule » en turc.

La traduction du mot ou de l’expression transcrite devient encore plus curieuse lorsqu’il y a un changement d’alphabet. Dans le cas du verbatim en arabe, le client a transcrit l’adjectif « sold out » en arabe (les voyelles ne sont pas toujours indiquées). Le traducteur automatique a ensuite essayé de le retranscrire en français. Le « i » a été ajouté par l’outil car cette combinaison de caractères lui a semblé être la plus vraisemblable pour cette transcription.

Lorsque l’on parle des emprunts il faut aussi prendre en compte les noms des marques que les clients peuvent mentionner dans leur message. Ces noms ont un sort assez tragique, ils sont très souvent traduits et/ou déformés !

Date

10 juillet 2023

Auteur
Portrait collaborateur Oksana (Illustration)

Oksana Mishchenko