Máquinas politicamente incorretas
Enquanto nós na equipe de tradução de máquina têm vindo a ver o aumento do tráfego para as nossas várias ofertas ao longo dos últimos meses, percebemos uma colisão súbita no trânsito ontem. Tendo crescido em Agatha Christie e Sherlock Holmes, tais mistérios são irresistíveis para mim-e um número de outras pessoas na equipe foram tão curiosos para descobrir o que causou essa colisão súbita. Nós pensamos que o Atividade IE8/AceleradorO Bot Mensageiro, Pesquisar traduções, Traduções do Office foram todos mostrando a mesma tendência ascendente como os dias antes e, portanto, não foram a razão específica para esta colisão.
Eventualmente, fomos capazes de identificar uma possível razão pela qual estávamos vendo esse pico. Nossa comunidade de usuários encontrou uma estranheza em como o motor de tradução automática processou a tradução para vários nomes de Inglês para alemão. Era de se esperar que quando o motor traduz o nome do candidato de um partido para alguém da outra parte, dada a atmosfera política atual na corrida até eleições E.U., que acabaria como notícia. Embora nós certamente bem-vindos todos os novos usuários que vieram para verificar este fenômeno para fora-queríamos compartilhar com nossos usuários a razão pela qual essas coisas parecem acontecer de vez em quando com sistemas de tradução de máquina estatisticamente treinados de nós e outros.
Um mecanismo de tradução automática de estatísticas é treinado em lotes e lotes de dados paralelos, ou seja, dados que existem em um idioma de origem (por exemplo, inglês) e um idioma de destino (por exemplo, alemão), onde a origem e o destino são traduções um do outro. Nosso motor é treinado em milhões de frases para cada par de idiomas que apoiamos. A fim treinar em um corpus particular dos dados-talvez um grande número artigos do Newswire no inglês que foram traduzidos no alemão-nós primeiramente temos que quebrar esse corpus para baixo em sentenças. Depois que o corpus é sentença quebrada, nós alimentamos as sentenças resultantes em um aligner da sentença, a única finalidade de que é encontrar que sentenças no lado da fonte alinham com as sentenças no lado do alvo. Esta não é uma tarefa trivial, uma vez que uma sentença de um lado poderia concebìvelmente alinhar com uma ou mais frases sobre o alvo (ou possivelmente nenhum!). O alinhador às vezes comete erros, e desalinha uma frase com outra que, na verdade, não é uma tradução. Isto pode conduzir a alguns mistranslations, especial se há umas palavras na fonte e no alvo que estão ocorrendo infrequëntemente. Uma vez que o nosso motor de tradução é estatístico, é altamente dependente das frequências de coocorrência entre as palavras nos dados de origem e de destino. Se certas palavras ocorrerem com pouca frequência — os nomes das pessoas, por exemplo, podem ocorrer apenas algumas vezes em um corpus de milhões de sentenças — a falta de frequência pode levar a uma desconfiança resultante de "suposições" incorretas entre a fonte e o alvo (isto é, baixa probabilidades atribuídas a determinadas palavras de origem e de destino). Isso pode levar a algumas gafes cômicas em nosso sistema de tradução.
Então, foi assim que a "máquina" decidiu traduzir de uma forma que acabou com a Comunidade atribuindo-a ao senso de humor da nossa equipe. Enquanto continuamos a trabalhar arduamente para garantir alinhamentos adequados, é de se esperar de um sistema estatístico que é construído em milhões de bilhões de palavras que tal situação poderia repetir.
O problema atual com o alinhamento agora deve ser resolvido, mas pedimos a nossa comunidade de usuários para continuar nos ajudando a identificar essas situações, entrando em contato conosco através deste blog.
-O Vikram