Machines politiquement incorrectes
Alors que nous, à l'équipe de traduction automatique ont vu augmenter le trafic à nos diverses offres au cours des derniers mois, nous avons remarqué une bosse soudaine dans la circulation hier. Ayant grandi sur Agatha Christie et Sherlock Holmes, de tels mystères sont irrésistibles pour moi-et un certain nombre d'autres personnes dans l'équipe étaient tout aussi curieux de savoir ce qui a provoqué cette bosse soudaine. Nous avons pensé que le Activité de IE8/AccélérateurLla Bot Messenger, Rechercher des traductions, Traductions Office étaient tous montrant la même tendance à la hausse que les jours avant et ne sont donc pas la raison spécifique de cette bosse.
Finalement, nous avons pu identifier une raison potentielle pour laquelle nous voyons ce pic. Notre communauté d'utilisateurs a trouvé une bizarrerie dans la façon dont le moteur de traduction automatique a traité la traduction de plusieurs noms de l'anglais vers l'allemand. Il faut s'attendre à ce que lorsque le moteur traduit le nom du candidat d'une partie à quelqu'un de l'autre partie, compte tenu de l'atmosphère politique actuelle dans la course aux élections américaines, qu'il finirait comme nouvelles. Bien que nous accueillons certainement tous les nouveaux utilisateurs qui sont venus pour vérifier ce phénomène sur-nous voulions partager avec nos utilisateurs la raison pour laquelle de telles choses semblent arriver de temps en temps avec des systèmes de traduction automatique formés statistiquement de nous et d'autres.
Un moteur de traduction automatique statistique est formé sur des lots et beaucoup de données parallèles, c'est-à-dire des données qui existent dans une langue source (par exemple, en anglais) et une langue cible (par exemple, l'allemand), où la source et la cible sont des traductions les unes des autres. Notre moteur est formé sur des millions de phrases pour chaque paire de langue que nous soutenons. Afin de s'entraîner sur un corpus particulier de données — peut-être un grand nombre d'Articles de Newswire en anglais qui ont été traduits en allemand — nous devons d'abord briser ce corpus en phrases. Une fois que le corpus est brisé, nous faisons entrer les phrases qui en résultent dans un alignement de phrase, dont le seul but est de trouver les phrases du côté source qui correspondent aux phrases du côté cible. Ce n'est pas une tâche insignifiante, car une phrase d'un côté pourrait éventuellement s'aligner avec une ou plusieurs phrases sur la cible (ou peut-être pas du tout!). L'aligneuse fera parfois des erreurs, et égare une phrase avec une autre qui n'est en fait pas une traduction. Cela peut conduire à des traductions erronées, surtout s'il y a des mots dans la source et la cible qui se produisent peu fréquemment. Puisque notre moteur de traduction est statistique, il dépend fortement des fréquences de co-occurrence entre les mots dans la source et les données de cible. Si certains mots se produisent rarement — les noms des gens, par exemple, ne peuvent se produire que quelques fois dans un corpus de millions de phrases — le manque de fréquence peut conduire à des erreurs de traduction résultant de «conjectures» incorrectes entre la source et la cible (c.-à-d., faible les probabilités attribuées à des mots source et cible particuliers). Cela peut conduire à des gaffes comiques dans notre système de traduction.
Donc, c'est ainsi que la «machine» a décidé de traduire d'une manière qui a fini avec la communauté de l'attribuer au sens de l'humour de notre équipe. Bien que nous continuons à travailler dur pour assurer des alignements adéquats, il faut s'attendre à un système statistique qui se construit sur des millions de milliards de mots qu'une telle situation pourrait répéter.
Le problème actuel avec l'alignement devrait maintenant être résolu mais nous exhortons notre communauté d'utilisateurs à continuer à nous aider à identifier de telles situations en nous contactant à travers ce blog.
-Vikram