Политически неправилни машини
Докато ние в екипа за машинен превод виждаме нарастващ трафик към нашите различни предложения през последните няколко месеца, забелязахме внезапен сблъсък с трафика вчера. След като порасна на Агата Кристи и Шерлок Холмс, такива мистерии са неустоими за мен-и редица други хора в отбора бяха толкова любопитни да разберат какво е причинило тази внезапна бум. Решихме, че IE8 дейност/Ускорител, Пратеник бот, Търсене на преводи, Преводи на Office всички бяха показали една и съща възходяща тенденция като дните преди и така не бяха специфичната причина за този бум.
В крайна сметка, успяхме да идентифицираме една потенциална причина, поради която видяхме този скок. Нашата потребителска общност откри яснота в начина, по който двигателят за машинен превод обработи превода за няколко имена от английски на немски език. Трябваше да се очаква, че когато двигателят превежда името на кандидата на едната страна на някого от другата страна, като се има предвид сегашната политическа атмосфера в края на изборите за САЩ, че тя ще свърши като новини. Въпреки че ние със сигурност приветстваме всички нови потребители, които дойдоха да проверят този феномен-ние искахме да споделим с нашите потребители причината, поради която такива неща изглежда да се случват от време на време със статистически обучени машинен превод системи от нас и други.
Системата за статистически машинен превод е обучена на партиди и много паралелни данни, т. е. данни, които съществуват както на изходния език (например на английски език), така и на целевия език (напр. немски), където източникът и целта са преводи един към друг. Нашият двигател е обучен на милиони изречения за всяка езикова двойка, която подкрепяме. За да се обучават в определен корпус от данни — може би голям брой нови статии на английски език, които са преведени на немски — първо трябва да разбием този корпус в изречения. След изтичане на присъдата, ние храним получените изречения в подравняване на изречения, чиято единствена цел е да се намери какво изречение от страната на източника подравнен с изречения от целевата страна. Това не е тривиална задача, тъй като едно изречение от едната страна може да се съобрази с едно или повече изречения на целта (или евентуално изобщо!). Изравняването понякога прави грешки и изравнява едно изречение с друго, което всъщност не е превод. Това може да доведе до някои грешки, особено ако има думи в източника и целта, които са рядко срещани. Тъй като нашата преводаческа машина е статистическа, тя е силно зависим от честотите на съвместна поява между думи в изходните и целевите данни. Ако някои думи се случват рядко – имената на хората, например, могат да се случат само няколко пъти в корпус от милиони изречения – липсата на честота може да доведе до грешки, произтичаща от неправилни "предположения" между източника и целта (т. е. ниско определен източник и целеви думи). Това може да доведе до някои комкални гасове в нашата система за превод.
Така че "машината" реши да преведе по начин, който завърши с Общността, приписването му на чувството за хумор на нашия екип. Въпреки че продължаваме да работим усърдно, за да гарантираме правилното подравняване, трябва да се очаква от статистическа система, която е изградена на милиони, на милиарди думи, които подобна ситуация може да се повтори.
Текущият проблем с изравняването трябва сега да бъде решен, но призоваваме нашата общност от потребители да ни помага да идентифицираме такива ситуации, като се свържем с нас чрез този блог.
-Викрам