Pular para o conteúdo principal
Translator
Esta página foi traduzida automaticamente pelo serviço de tradução automática do Microsoft Translator. Saiba Mais

Microsoft Tradutor blog

Microsoft Translator lança tradução literária em chinês

Ao ler antigo Chinês poesia, maravilhamo-nos frequentemente com as palavras maravilhosas que os escritores antigos poderiam usar para descrever pessoas, eventos, objectos e cenas. Este é um esplêndido tesouro cultural que nos foi deixado para trás. No entanto, semelhante a Shakespeares versos em língua inglesa, o chinês literário utilizado por estes poetas é muitas vezes difícil de compreender para as pessoas modernas, e os significados e subtilezas nele embutidos perdem-se frequentemente.  

Para resolver este problema, os investigadores da Microsoft Research Asia adoptaram as mais recentes técnicas de tradução automática neural para formar modelos de tradução directa entre o chinês literário e o chinês moderno, o que também resulta na criação de capacidades de tradução entre o chinês literário e mais de 90 outras línguas e dialectos no Microsoft Translator. Actualmente, a tradução literária chinesa foi integrada no Microsoft Tradutor app, Azure Cognitive Services Translatore uma série de produtos Microsoft que são suportados pelos serviços do Microsoft Translator. 

Imagem: A pintura de "West Mountain in Misty Rain" de Shen Zhou, Dinastia Ming. O antigo poema chinês sobre a pintura é de Yong Liu, Dinastia da Canção do Norte. O poema retrata o cenário da Primavera no sul da China durante o Festival de Qingming e a prosperidade da vida social.

Permitir que mais pessoas apreciem o encanto da cultura tradicional chinesa 

O chinês literário é um importante portador da cultura tradicional chinesa. Livros e textos volumosos dos tempos antigos registaram a Chinaão rica e profunda da cultura da S. M. ao longo dos últimos cinco mil anos. Os pensamentos e sabedoria acumulados e contidos neles são dignos de exploração e pensamento contínuos.  

Com a ajuda da tradução automática, os turistas podem agora compreender textos e poemas chineses antigos escritos em edifícios e monumentos históricos, os estudantes têm agora uma ferramenta extra para os ajudar a aprender chinês, e os investigadores que estão empenhados na recolha e tradução de textos antigos podem ser mais produtivos.     

Dongdong Zhang, um dos principais investigadores da Microsoft Research Asia, disse: "De uma perspectiva técnica, o chinês literário pode ser considerado como uma língua separada. Uma vez realizada a tradução entre o chinês literário e o chinês moderno, a tradução entre o chinês literário e outras línguas como o inglês, o francês, e o alemão torna-se uma questão natural".  

A maior dificuldade do modelo de IA de tradução literária chinesa: Poucos dados de formação 

O elemento mais crítico da formação de modelos de IA são os dados. Apenas quando o volume de dados é suficientemente grande e a sua qualidade suficientemente elevada. Cna você treinar um modelo mais preciso. Na tradução automática, a formação do modelo requer dados bilingues: dados do texto original e dados da língua de destino. A tradução do chinês literário é muito especial, como é".s não é uma língua utilizada na vida quotidiana. Portanto, em comparação com a tradução de outras línguas, os dados de formação da tradução literária chinesa são muito pequenos, o que não é conducente à formação de modelos de tradução automática.   

Embora os investigadores da Microsoft Research Asia tenham recolhido muitos dados literários e modernos chineses disponíveis ao público nas fases iniciais, os dados originais não podem ser utilizados directamente. A limpeza dos dados tem de ser realizada para normalizar dados de diferentes fontes, vários formatos, bem como a largura total/pontuações de meia-largura, como meio de minimizar a interferência de dados inválidos na formação de modelos. Desta forma, os dados de alta qualidade efectivamente disponíveis são ainda mais reduzidos.  

De acordo com Shuming Ma, um investigador da Microsoft Research Asia, a fim de reduzir a questão da escassez de dados, os investigadores têm realizado uma grande quantidade de trabalho de síntese e aumento de dados, incluindo 

Primeiro, carácter comum alinhamento e expansão para aumentar o tamanho dos dados de formação. Diferente de traduções entre chinês e outras línguas tais como inglês, francês, russo, etc., chinês literário e chinês moderno usam o mesmo conjunto de caracteres. Aproveitando esta característica, os investigadores da Microsoft Research Asia utilizaram algoritmos inovadores para permitir a tradução automática para recordar caracteres comuns, conduzir um alinhamento natural, e depois expandir para palavras, frases, e frases curtas, sintetizando assim uma grande quantidade de dados utilizáveis.  

Segundo, deformar a estrutura das frases para melhorar a robustez da tradução automática. Em relação a quebras em textos e poemas, os investigadores acrescentaram uma série de variantes para tornar as máquinas mais abrangentes na aprendizagem de poemas antigos. Para as pessoas, mesmo quando vêem uma frase que está estruturada de forma anormal, como um poema segmentado em linhas baseadas no ritmo em vez de frases completas, ainda conseguem juntar as partes e compreendê-la. Mas para um modelo de tradução que nunca viu tal segmentação antes, é provável que seja confundido. Portanto, a transformação do formato dos dados pode não só expandir a quantidade de dados de formação, mas também melhorar a robustez da formação do modelo de tradução.  

Em terceiro lugar, realizar formação tradicional e simplificada de tradução de caracteres para aumentar a adaptabilidade do modelo. Em chinês, os caracteres tradicionais existem tanto em chinês literário como em chinês moderno. Quando os investigadores formaram o modelo, a fim de melhorar a adaptabilidade do modelo, não só aproveitaram dados em chinês simplificado, mas também acrescentaram dados em chinês tradicional, bem como dados misturados com caracteres tradicionais e simplificados. Assim, o modelo pode compreender tanto o conteúdo tradicional como o simplificado, o que leva a resultados de tradução mais precisos.   

Quarto, aumentar a formação de palavras em língua estrangeira para melhorar a precisão da tradução. Ao traduzir o chinês moderno para o chinês literário, há frequentemente palavras modernas derivadas de palavras em língua estrangeira e novas palavras que nunca apareceram no chinês antigo, tais como "Microsoft", "computador", "carril de alta velocidade", e muitas outras como "Microsoft". Para lidar com esta questão, os investigadores formaram um pequeno modelo para reconhecer entidades. O modelo traduziu primeiro o significado da palavra fora da entidade, depois voltou a preencher a entidade para garantir a exactidão da máquinas processamento das palavras estrangeiras.    

Imagem: THge chinês literário processo de tradução

Além disso, para estilos de escrita informais tais como blogs, fóruns, Weibo, etc., o modelo de tradução automática foi treinado especificamente para melhorar ainda mais a robustez da tradução entre o chinês moderno e o chinês literário.  

Dongdong Zhang expressou: "Com base no actual sistema de tradução, continuaremos a enriquecer o conjunto de dados e a melhorar o método de treino modelo para o tornar mais robusto e versátil. No futuro, o método pode não só ser utilizado para a tradução literária chinesa, mas também pode ser alargado a outros cenários de aplicação".