Microsoft Translator publie une traduction littéraire en chinois

Publié le 25 août 202130 août 2021par Microsoft Translator

Lors de la lecture ancien Chinois poésie, nous nous émerveillons souvent des mots très merveilleux que les écrivains anciens pourraient utiliser pour décrire les gens, les événements, les objets et les scènes. C’est un magnifique trésor culturel qui nous a été laissé. Cependant, semblable à Shakespeare'les versets de la langue anglaise, le chinois littéraire utilisé par ces poètes est souvent difficile à comprendre pour les gens modernes, et les significations et les subtilités qui y sont intégrées sont fréquemment perdues.

Pour résoudre ce problème, les chercheurs de Microsoft Research Asia ont adopté les dernières techniques de traduction automatique neuronale pour former des modèles de traduction directe entre le chinois littéraire et le chinois moderne, ce qui se traduit également par la création de capacités de traduction entre le chinois littéraire et le chinois moderne. plus de 90 autres langues et dialectes dans Microsoft Translator. À l’heure actuelle, la traduction littéraire chinoise a été intégrée dans le Microsoft Translator App, Traducteur azure services cognitifset un certain nombre de produits Microsoft pris en charge par les services Microsoft Translator.

Image: La peinture de « West Mountain in Misty Rain » de Shen Zhou, dynastie Ming. L’ancien poème chinois sur la peinture est de Yong Liu, dynastie song du Nord. Le poème dépeint le paysage printanier dans le sud de la Chine pendant le festival de Qingming et la prospérité de la vie sociale.

Permettre à plus de gens d’apprécier le charme de la culture traditionnelle chinoise

Le chinois littéraire est un important vecteur de la culture traditionnelle chinoise. Des livres volumineux et des textes de l’Antiquité ont enregistré la Chine'culture riche et profonde au cours des cinq mille dernières années. Les pensées et la sagesse accumulées et contenues en eux sont dignes d’une exploration et d’une pensée continues.

Avec l’aide de la traduction automatique, les touristes peuvent maintenant comprendre les textes et poèmes chinois anciens écrits sur les bâtiments et monuments historiques, les étudiants ont maintenant un outil supplémentaire pour les aider à apprendre le chinois, et les chercheurs qui sont engagés dans la collecte et la traduction de textes anciens peuvent être plus productifs.

Dongdong Zhang, chercheur principal chez Microsoft Research Asia, a déclaré: « D’un point de vue technique, le chinois littéraire peut être considéré comme une langue distincte. Une fois que la traduction entre le chinois littéraire et le chinois moderne est réalisée, la traduction entre le chinois littéraire et d’autres langues telles que l’anglais, le Français et l’allemand devient une évidence.

La plus grande difficulté du modèle d’IA de traduction chinoise littéraire: peu de données de formation

L’élément le plus critique de l’apprentissage du modèle d’IA est les données. Uniquement lorsque le volume de données est suffisamment important et que sa qualité est suffisamment élevée Anc Vous former un modèle plus précis. En traduction automatique, l’apprentissage du modèle nécessite des données bilingues : données textuelles originales et données de langue cible. La traduction du chinois littéraire est très spéciale, comme il'n’est pas une langue utilisée dans la vie quotidienne. Par conséquent, par rapport à la traduction d’autres langues, les données de formation de la traduction littéraire chinoise sont très faibles, ce qui n’est pas propice à la formation de modèles de traduction automatique.

Bien que les chercheurs de Microsoft Research Asia ont collecté un grand nombre de données littéraires et chinoises modernes accessibles au public dans les premiers stades, les données d’origine ne peuvent pas être utilisées directement. Le nettoyage des données doit être effectué pour normaliser les données provenant de différentes sources, de différents formats, ainsi que de toute la largeur/ponctuations à demi-chasse, comme moyen de minimiser l’interférence des données non valides sur l’apprentissage du modèle. De cette façon, les données réelles de haute qualité disponibles sont encore réduites.

Selon Shuming Ma, chercheur chez Microsoft Research Asia, afin de réduire le problème de rareté des données, les chercheurs ont effectué une grande quantité de travaux de synthèse et d’augmentation des données, notamment:

Tout d’abord, caractère commun– alignement et expansion basés pour augmenter la taille des données d’apprentissage. Différent de les traductions entre le chinois et d’autres langues telles que l’anglais, le Français, le russe, etc., le chinois littéraire et le chinois moderne utilisent le même jeu de caractères. Tirant parti de cette fonctionnalité, les chercheurs de Microsoft Research Asia ont utilisé des algorithmes innovants pour permettre à la traduction automatique de rappeler des caractères communs, d’effectuer un alignement naturel, puis de s’étendre aux mots, aux phrases et aux phrases courtes, synthétisant ainsi une grande quantité de données utilisables.

Deuxièmement, déformer la structure des phrases pour améliorer la robustesse de la traduction automatique. Concernant dans les textes et les poèmes, les chercheurs ont ajouté un certain nombre de variantes pour rendre les machines plus complètes dans l’apprentissage des poèmes anciens. Pour les gens, même lorsqu’ils voient une phrase qui est structurée anormalement, comme un poème segmenté en lignes basées sur le rythme plutôt que sur des phrases complètes, ils peuvent toujours assembler les parties et la comprendre. Mais pour un modèle de traduction qui n’a jamais vu une telle segmentation auparavant, il sera probablement confus. Par conséquent, la transformation du format de données peut non seulement augmenter la quantité de données d’apprentissage, mais également améliorer la robustesse de l’apprentissage du modèle de traduction.

Troisièmement, effectuez une formation traditionnelle et simplifiée sur la traduction de caractères afin d’accroître l’adaptabilité du modèle. En chinois, les caractères traditionnels existent à la fois en chinois littéraire et en chinois moderne. Lorsque les chercheurs ont formé le modèle, afin d’améliorer l’adaptabilité du modèle, ils ont non seulement tiré parti des données en chinois simplifié, mais aussi des données en chinois traditionnel, ainsi que des données mélangées avec des caractères traditionnels et simplifiés. Ainsi, le modèle peut comprendre à la fois le contenu traditionnel et simplifié, ce qui conduit à des résultats de traduction plus précis.

Quatrièmement, accroître la formation des mots en langue étrangère afin d’améliorer la précision de la traduction. Lors de la traduction du chinois moderne en chinois littéraire, il y a souvent des mots modernes dérivés de mots en langue étrangère et de nouveaux mots qui ne sont jamais apparus en chinois ancien, tels que « Microsoft », « ordinateur », « train à grande vitesse » et bien d’autres comme lui. Pour faire face à ce problème, les chercheurs ont formé un petit modèle pour reconnaître les entités. Le modèle a d’abord traduit le sens du mot en dehors de l’entité, puis a rempli l’entité pour assurer l’exactitude de la machine.'s traitement des mots étrangers.

Image: TIl chinois littéraire processus de traduction

En outre, pour les styles d’écriture informels tels que les blogs, les forums, Weibo, etc., le modèle de traduction automatique a été formé spécifiquement pour améliorer davantage la robustesse de la traduction entre le chinois moderne et le chinois littéraire.

Dongdong Zhang a déclaré: « Sur la base du système de traduction actuel, nous continuerons à enrichir l’ensemble de données et à améliorer la méthode d’apprentissage du modèle pour le rendre plus robuste et polyvalent. À l’avenir, la méthode pourrait non seulement être utilisée pour la traduction littéraire chinoise, mais aussi être étendue à d’autres scénarios d’application.

Blog de Microsoft Translator