Traduction et linguistique : deux domaines a priori proches mais pourtant bien distincts

Nos linguistes Oksana et Jordi vous proposent une immersion au cœur de la langue, de la linguistique et de la traduction à travers un dossier de plusieurs articles à lire sur notre blog ! Découvrez ci-dessous, le premier d’entre eux : « Traduction et linguistique : deux domaines a priori proches mais pourtant bien distincts ».

« Tu es linguiste ? Tu traduis de quelle langue vers quelle langue ? »

Voilà une question à laquelle est régulièrement confrontée l’équipe linguistique d’ERDIL. Difficile alors de fournir une réponse concise, sans risquer de perdre son interlocuteur en chemin.

Car si la traduction et ses nombreuses applications sont plutôt bien connues (notamment depuis que les outils de traduction automatique sont accessibles à tous), la linguistique, elle, reste relativement méconnue. Ce sont ces deux disciplines, avec leurs particularités et spécificités, que nous vous invitons à découvrir dans cet article !

La traduction : transporter le sens d’une langue source vers une langue cible

Un peu d’étymologie (une branche de la linguistique, donc) pourra nous aider à définir ce qu’est la traduction.

Traduction descend de traductio, terme latin décrivant l’action de faire passer quelque chose d’un point à un autre. Le verbe allemand übersetzen est quant à lui un calque* du terme latin transferre ou traducere (transüber et ducere/ferresetzen), tandis que le substantif Übertragung compte parmi ses différentes significations transfert, transmission et traduction. La traduction est donc l’art de guider, de transporter le sens d’un texte depuis une langue vers une autre.

* Un calque est un terme transparent qui décrit le phénomène d’emprunt d’un terme d’une langue par une autre, prenant la forme d’une transcription des morphèmes ou des mots le composant par leur équivalent dans la langue de destination. Ainsi, les termes portugais, anglais, néerlandais ou danois « falso amigo », « false friend », « valse vriend » et « falsk ven » sont tous des calques (mais pas des faux-amis !) du terme français « faux-ami ».

Une telle tâche requiert une excellente connaissance tant de la langue source (c’est-à-dire la langue qui est traduite) que de la langue cible. S’ajoutent ensuite plusieurs considérations, qui peuvent varier selon la nature du média traduit, la traduction recouvrant au final des domaines et des pratiques très variées, allant de la traduction d’une œuvre littéraire aux traductions automatiques réalisées par des réseaux neuronaux.

La traduction, un exercice qui diffère (grandement) selon les domaines

Dans le domaine de la traduction littéraire par exemple, en plus de la question de la transposition du sens, il est habituel de se demander comment retranscrire le style d’un texte : faut-il conserver le style d’origine aux dépens de la lisibilité, ou le modifier pour assurer une meilleure compréhension du texte par ses lecteurs ?

Dans le cas de la traduction technique, où la question de la transcription du style est peu importante, d’autres compétences entrent en jeu. Il est notamment nécessaire d’être familier du domaine technique duquel sont issus les textes à traduire. Cela implique, pour les traducteurs, de constituer des bases terminologiques regroupant les différents termes usités, de s’assurer de leur validité et de leur emploi. Selon le domaine, en effet, un mot tel que l’allemand Welle (vague) peut signifier « onde cyclonique », « arbre de transmission » ou encore « papier ondulé » : il s’agit de choisir la bonne signification pour le bon contexte !

Les outils au service de la traduction

De nombreux outils permettent d’assister, plutôt que d’automatiser, les processus composant le métier de la traduction : alignement des textes, constitution de bases terminologiques regroupant les termes et expressions propres à un domaine, mémoires de traductions qui établiront des similarités entre textes déjà traduits et textes à traduire… Une partie de ces outils peuvent même pré-traduire certains passages.

Ces solutions fluidifient le processus de traduction, et permettent notamment de ne pas avoir à traduire à chaque fois les mêmes structures récurrentes, ou encore de pouvoir accéder aisément à la terminologie nécessaire pour un projet ou un domaine précis.
Il est important de rappeler que ces outils, dits de Traduction Assistée par Ordinateur (TAO), n’effectuent pas les traductions à la place des traducteurs mais, comme leur nom l’indique, les assistent ; les pré-traductions sont réalisées à partir des traductions déjà effectuées, les bases terminologiques sont enrichies par les traducteurs eux-mêmes. Dans tous les cas, les décisions finales en matière de traduction sont prises par des traducteurs (humains) et non pas automatiquement ; il ne s’agit donc pas de traduction automatique.

La traduction automatique constitue le penchant informatique du domaine de la traduction, plus connue du grand public par l’intermédiaire de services tels Google Translate ou DeepL ou encore Microsoft Translator. Celle-ci a connu de nombreuses évolutions au cours des dernières décennies, et permet de traduire de manière quasi-instantanée de grands volumes de textes ; une capacité importante de traitement néanmoins contre-balancée par un certain nombre de limites par rapport à des traducteurs humains.

Parmi celles-ci, on peut notamment relever les difficultés liées à la prise en compte du contexte ou au choix de la terminologie adaptée, ou encore les déviations (erreurs d’orthographe ou de syntaxe, absence de ponctuation…) présentes dans le texte à traduire par rapport au standard linguistique sur lequel le modèle de traduction est entraîné. La deuxième partie de notre dossier reviendra plus en détail sur ces limites, et de manière générale, sur les modèles de traduction automatique.

La linguistique : comprendre ce qui fait la langue

Les considérations liées au transport du sens et du style d’une langue jusqu’à une autre revêtent une importance moindre dans le cadre de la linguistique, tout simplement parce que la finalité n’est pas la même. Plutôt que de porter le sens d’une langue à une autre, il s’agit d’analyser comment celui-ci se construit et se manifeste au sein de la langue étudiée.

La linguistique chez ERDIL, ça fonctionne comment ?

Chez ERDIL, le cœur de l’activité des linguistes consiste à identifier les structures syntaxiques récurrentes présentes dans les verbatim clients et, de là, concevoir des règles informatiques qui en permettront l’analyse sémantique. Il s’agit donc d’un véritable travail d’étude de la langue pour en comprendre au mieux les mécanismes sous-jacents.

Là où les traducteurs transposent le sens et le style d’une langue à l’autre, les linguistes chez ERDIL transposent les structures syntaxiques en autant de règles linguistiques, interprétables par notre outil d’analyse. Celui-ci joue alors le rôle d’un intermédiaire, qui assignera automatiquement un ou plusieurs concepts, ainsi qu’une tonalité, aux verbatim dans lesquels il aura décelé les règles correspondantes, faisant alors transparaître les sentiments portés par les verbatim.

De l’identification des structures syntaxiques à l’assignation de concepts : la conception d’une règle, de A à Z

Illustrons concrètement ce processus avec le message client néerlandais suivant, qui prend la forme d’un retour d’expérience suite à un entretien automobile dans un garage :

“Het onderhoud werd correct uitgevoerd” (que l’on pourrait traduire par « L’entretien fut effectué correctement »)

  • 1re étape : identifier le rôle de chaque élément du verbatim ; nous avons ici un groupe nominal regroupant un article défini (hetle) et un substantif (onderhoudentretien), un verbe auxiliaire conjugué (werdfut, forme conjuguée de worden – dans ce contexte, être), un adverbe (correctcorrectement) et enfin un participe passé (uitgevoerdeffectué, participe de uitvoereneffectuer).
  • 2e étape : retranscrire ce verbatim, et les éléments qui le constituent, en un langage compréhensible par nos outils en charge de l’assignation des concepts ; c’est en quelque sorte une traduction, mais dont la nature informatique du récepteur changerait considérablement la forme, et qui pourrait être :

Structure modélisée : [het] + [onderhoud] + [werd] + [correct] + [uitgevoerd]
Concept à associer : Qualité de l’intervention, tonalité positive

À l’aide de cette règle, notre outil d’analyse serait en mesure de reconnaître ce verbatim, et y associerait le concept et la tonalité indiqués dans la règle : les sentiments portés par le verbatim sont maintenant identifiés.

Cependant, quand bien même ce verbatim serait courant, créer une règle correspondant exactement à chaque structure syntaxique possible demanderait un temps considérable, au vu de l’incroyable diversité de celles-ci. A contrario, une règle trop générale catégoriserait certes un grand nombre de verbatim, mais au détriment de la qualité de l’analyse : il y aurait beaucoup de détections erronées. Il s’agit donc d’établir un arbitrage constant entre la précision et la portée de la règle.

Quelques pistes d’amélioration pour optimiser la règle

Nous disposons maintenant d’une règle fonctionnelle, prête à détecter tous les verbatim prenant la forme “Het onderhoud werd correct uitgevoerd”. En l’état cependant, notre règle reste relativement limitée, car la moindre variation par rapport à la forme précédemment citée (par exemple, l’emploi d’un synonyme pour correct ou onderhoud, ou encore, l’utilisation d’une forme verbale différente) empêchera notre règle de fonctionner. Nous pourrions donc la rendre plus efficace, en substituant notre adverbe correct et notre substantif onderhoud par des listes d’adverbes ou de substantifs lexicalement proches et en lui fournissant l’ensemble des formes verbales du verbe worden plutôt que la seule forme werd.

De plus, une connaissance de la syntaxe néerlandaise permet de savoir que l’ajout d’un mot ou d’un groupe de mots (tels que zoals voorziencomme prévu, de laatste keerla dernière fois ou encore zoals altijdcomme toujours) au début d’une proposition indépendante ou principale (mais pas subordonnée !) est une construction courante, qui implique cependant une inversion de la position du sujet het onderhoud et du verbe werd. L’ordre qui en résulte doit donc être pris en compte par notre règle qui, suite aux différentes améliorations proposées, pourrait ressembler à celle ci-dessous :

Structure modélisée : [[Articles définis] + [Substantifs : intervention]] + [Verbes auxilaires néerlandais : être] + [Adverbes : professionnalisme] + [Participes passés néerlandais : effectuer]

OU

[Verbes auxiliaires néerlandais : être] + [[Articles définis] + [Substantifs : intervention]] + [Adverbes : professionnalisme] + [Participes passés néerlandais : effectuer]
Concept à associer : Qualité de l’intervention, tonalité positive

Cette version améliorée de la règle repérerait notre verbatim mentionné plus haut, mais aussi de nombreux verbatim similaires tels que :

“Het onderhoud werd correct uitgevoerd”« L’entretien fut effectué correctement »
“De werken worden goed uitgevoerd.” « Les travaux sont effectués correctement »
“De werken werden correct uitgevoerd zoals verwacht”« Les travaux furent, comme attendu, correctement réalisés »
“Zoals voorzien werd de herstelling professioneel uitgevoerd” « Comme prévu, la réparation fut effectuée de manière professionnelle »
“Zoals altijd worden de werken correct uitgevoerd”« Comme toujours, les travaux sont effectués correctement »

Il ne s’agit là que d’un exemple simple de construction d’une règle linguistique. Il est possible (et souhaitable !) de la développer plus avant, afin d’en améliorer la qualité et la pertinence. De plus, il est nécessaire d’évaluer la fiabilité et la pérennité de la règle, en s’assurant que ce concept et cette tonalité sont associés uniquement aux structures adéquates.

Par exemple, il est possible que les structures positives détectées par notre règle, comme “Het onderhoud werd correct uitgevoerd”, se retrouvent imbriquées au sein d’une phrase dont la tonalité serait négative, comme “De laatste keer werd het onderhoud correct uitgevoerd, maar deze keer niet” (« L’entretien fut effectué correctement la dernière fois, mais pas cette fois-ci ») ; il s’agirait alors d’adapter notre règle en conséquence, afin que la tonalité soit correctement reconnue.

Si tout se déroule comme prévu…

Avec les exemples précédents, vous pouvez aisément comprendre pourquoi la linguistique est omniprésente dans l’activité d’analyse des verbatim d’ERDIL. L’expertise de nos linguistes garantit une compréhension et par conséquent une précision d’analyse inégalable par tout système de machine learning / apprentissage automatique.

Je conclurai cet article avec un exemple teinté d’humour :

Le verbatim néerlandais “Alles is verloren zoals voorzien”, bien que correct d’un point de vue syntaxique, ne l’est pas d’un point de vue sémantique et se voit traduit par les outils de traduction automatique par un fataliste « Tout est perdu, comme prévu » là où un plus habituel, mais moins dramatique, « Tout s’est déroulé comme prévu » aurait été attendu.

Pourquoi une telle différence ? Si tout se déroule effectivement comme prévu, les prochains articles de ce dossier fourniront la réponse à cette question lors de leur publication sur notre blog en explorant notamment :
les enjeux et limites de la traduction automatique
les problèmes liés à l’utilisation de dispositifs de traduction automatique
– les interactions de celle-ci avec l’analyse sémantique des verbatim et les avantages pour vous, clients ou prospects, de recourir à une analyse effectuée par des linguistes spécialistes de chaque langue présente dans vos verbatim.

Date

24 avril 2023

Auteur
Portrait collaborateur Jordi (Illustration)

Jordi Guelpa