Máquinas politicamente incorretas
Embora a equipe de tradução automática tenha observado um aumento no tráfego de nossas várias ofertas nos últimos meses, notamos um aumento repentino no tráfego ontem. Tendo crescido com Agatha Christie e Sherlock Holmes, esses mistérios são irresistíveis para mim - e várias outras pessoas da equipe também estavam curiosas para descobrir a causa desse aumento repentino. Imaginamos que o Atividade do IE8/Acelerador, o Bot do Messenger, Pesquisar traduções, Traduções de escritório estavam todos apresentando a mesma tendência de alta dos dias anteriores e, portanto, não foram o motivo específico desse aumento.
Por fim, conseguimos identificar um possível motivo pelo qual estávamos vendo esse pico. Nossa comunidade de usuários encontrou uma estranheza na forma como o mecanismo de tradução automática processava a tradução de vários nomes do inglês para o alemão. Era de se esperar que, quando o mecanismo traduzisse o nome do candidato de um partido para alguém do outro partido, dada a atual atmosfera política que antecede as eleições nos EUA, isso acabasse virando notícia. Apesar de darmos as boas-vindas a todos os novos usuários que vieram verificar esse fenômeno, queríamos compartilhar com nossos usuários o motivo pelo qual essas coisas parecem acontecer de tempos em tempos com os nossos sistemas de tradução automática treinados estatisticamente e outros.
Um mecanismo de tradução automática estatística é treinado com muitos e muitos dados paralelos, ou seja, dados que existem em um idioma de origem (por exemplo, inglês) e um idioma de destino (por exemplo, alemão), em que a origem e o destino são traduções um do outro. Nosso mecanismo é treinado com milhões de frases para cada par de idiomas que suportamos. Para treinar em um determinado corpus de dados - por exemplo, um grande número de artigos de notícias em inglês que foram traduzidos para o alemão -, primeiro precisamos dividir esse corpus em frases. Depois que o corpus é dividido em frases, alimentamos as frases resultantes em um alinhador de frases, cujo único objetivo é descobrir quais frases no lado de origem se alinham com as frases no lado de destino. Essa não é uma tarefa trivial, pois uma frase em um lado pode se alinhar a uma ou mais frases no lado de destino (ou possivelmente a nenhuma!). Às vezes, o alinhador comete erros e alinha erroneamente uma frase com outra que, de fato, não é uma tradução. Isso pode levar a alguns erros de tradução, especialmente se houver palavras na origem e no destino que não ocorram com frequência. Como nosso mecanismo de tradução é estatístico, ele depende muito das frequências de co-ocorrência entre as palavras nos dados de origem e destino. Se determinadas palavras não ocorrerem com frequência - nomes de pessoas, por exemplo, podem ocorrer apenas algumas vezes em um corpus de milhões de frases -, a falta de frequência pode levar a erros de tradução resultantes de "suposições" incorretas entre a origem e o destino (ou seja, baixas probabilidades atribuídas a determinadas palavras de origem e destino). Isso pode levar a algumas gafes cômicas em nosso sistema de tradução.
Foi assim que a "máquina" decidiu traduzir de uma forma que acabou sendo atribuída pela comunidade ao senso de humor da nossa equipe. Embora continuemos a trabalhar arduamente para garantir alinhamentos adequados, é de se esperar que um sistema estatístico criado com base em milhões ou bilhões de palavras possa repetir uma situação como essa.
O problema atual com o alinhamento já deve ter sido resolvido, mas pedimos à nossa comunidade de usuários que continue nos ajudando a identificar essas situações entrando em contato conosco por meio deste blog.
-Vikram