Niewłaściwe politycznie maszyny
Podczas gdy w zespole tłumaczenia maszynowego zostały widząc zwiększenie ruchu do naszych różnych ofert w ciągu ostatnich kilku miesięcy, zauważyliśmy nagłe bump w ruchu wczoraj. Po dorastał na Agatha Christie i Sherlock Holmes, takie tajemnice są nieodparty dla mnie-i wielu innych ludzi w zespole byli tak ciekawi, aby dowiedzieć się, co spowodowało to nagłe bump. Pomyśleliśmy, że Aktywność IE8/AkceleratorTthe Posłaniec bot, Wyszukiwanie tłumaczeń, Tłumaczenia biurowe Wszyscy wykazali taką samą tendencję wzrostową jak dni wcześniej, a tym samym nie były szczególnym powodem tego bump.
Ostatecznie byliśmy w stanie zidentyfikować jeden potencjalny powód, dlaczego byliśmy widząc ten skok. Nasza społeczność użytkowników znalazła osobowością w sposobie, w jaki silnik tłumaczenia maszynowego przetworzył tłumaczenie na kilka nazw z angielskiego na niemiecki. Należy oczekiwać, że gdy silnik tłumaczy nazwę kandydata jednej ze stron na kogoś z drugiej strony, biorąc pod uwagę obecną atmosferę polityczną w biegu do wyborów do USA, że skończy się jako nowości. Podczas gdy z pewnością Zapraszamy wszystkich nowych użytkowników, którzy przyszli, aby sprawdzić to zjawisko obecnie-chcieliśmy podzielić się z naszymi użytkownikami powód, dlaczego takie rzeczy wydają się zdarzyć od czasu do czasu ze statystycznie przeszkolonych systemów tłumaczenia maszynowego od nas i innych.
Aparat statystycznego tłumaczenia maszynowego jest przeszkolony w zakresie partii i wielu równoległych danych, czyli danych, które istnieją zarówno w języku źródłowym (np. w języku angielskim), jak i w języku docelowym (np. w języku niemieckim), gdzie źródłem i celem są tłumaczenia ze sobą nawzajem. Nasz silnik jest przeszkolony na miliony zdań dla każdej pary językowej wspieramy. Aby trenować na konkretnym korpusie danych-może wiele artykułów Newswire w języku angielskim, które zostały przetłumaczone na język niemiecki-najpierw musimy złamać, że ciało w dół do zdania. Po Corpus jest zdania łamane, możemy karmić powstałe zdania w zdaniu wyrównujące, którego jedynym celem jest znalezienie, jakie zdania na stronie źródłowej wyrównać ze zdaniami na stronie docelowej. To nie jest proste zadanie, ponieważ zdanie z jednej strony mogłoby mieścić się w jednym lub kilku zdaniach na cel (lub ewentualnie wcale!). Wyrównywacz czasami popełniają błędy i źle wyrównują jedno zdanie z inną, która w rzeczywistości nie jest tłumaczeniem. Może to prowadzić do niektórych błędnych, zwłaszcza jeśli istnieją słowa w źródle i celu, które są rzadko występujące. Ponieważ nasz silnik tłumaczeniowy jest Statystyczny, jest wysoce zależny od częstotliwości współwystępowania między słowami w danych źródłowych i docelowych. Jeśli niektóre słowa są rzadko występujące-nazwiska ludzi, na przykład, może nastąpić tylko kilka razy w całym korpusem milionów zdań-brak częstotliwości może prowadzić do błędnych w wyniku nieprawidłowych "prób" między źródłem a celem (tj., niskie prawdopodobieństw przypisanych do określonych słów źródłowych i docelowych). Może to prowadzić do niektórych komicznych gaffes w naszym systemie tłumaczeń.
Tak, to jest jak "maszyna" postanowił przetłumaczyć w sposób, który zakończył się ze społecznością przypigując go do poczucia humoru naszego zespołu. Chociaż nadal ciężko pracujemy, aby zapewnić prawidłowe wyrównanie, należy oczekiwać od systemu statystycznego, który jest zbudowany na miliony do miliardów słów, że taka sytuacja może powtórzyć.
Aktualny problem z wyrównywaniem powinny teraz być rozwiązane, ale apelujemy do naszej społeczności użytkowników, aby pomóc nam zidentyfikować takie sytuacje, kontaktując się z nami za pośrednictwem tego bloga.
-Z-Vikram