Poliitiliselt ebaõiged masinad
Kui me masintõlke meeskond on näinud üha suurenevat liiklust meie erinevate annetuste viimase paari kuu jooksul, märkasime äkilist kokkupõrget liiklust eile. Olles kasvanud Agatha Christie ja Sherlock Holmes, sellised saladused on vastupandamatu minu jaoks-ja mitmed teised inimesed meeskond olid sama uudishimulik, et teada saada, mis põhjustas selle ootamatu põrge. Me arvasime, et IE8 tegevus/Kiirendi, on Messenger bot, Tõlgete otsimine, Office ' i tõlked Kõik näitasid sama Tõusutrend kui päevad enne ja seega ei olnud selle konkreetse põhjus.
Lõpuks, me saime tuvastada ühe võimaliku põhjuse, miks me näeme seda kühvli. Meie kasutajate kogukond leidis veidruse, kuidas masintõlke mootor töötles tõlget mitme nime eest inglise keelest saksa keelde. Eeldatakse, et kui mootor tõlgib ühe osapoole kandidaadi nime teisele poolele, arvestades praegust poliitilist atmosfääri USA valimiste ajal, et see oleks uudisteks. Kuigi me kindlasti teretulnud kõik uued kasutajad, kes tulid, et kontrollida seda nähtust välja – tahtsime jagada meie kasutajatega põhjus, miks sellised asjad tunduvad juhtuma aeg-ajal statistiliselt koolitatud masintõlke süsteemid meilt ja teised.
Statistiline masintõlke mootor on koolitatud partiidena ja palju paralleelseid andmeid, st andmeid, mis on olemas nii lähtekeeles (nt inglise keeles) kui ka sihtkeeles (nt saksa keel), kus lähte-ja Sihtkeel on üksteise tõlked. Meie mootor on koolitatud miljoneid lauseid iga keelepaari me toetame. Selleks, et koolitada teatud andmeid andmete kohta – võib-olla suur hulk Newswire artikleid inglise keeles, mis on tõlgitud saksa keelde – peame kõigepealt murdma selle korki lausetesse. Pärast seda, kui korpus on karistuseks murtud, toidame saadud lauseid karistusena, mille ainsaks eesmärgiks on leida, millised laused allika poolel joondada sihtpoolel olevate lausetega. See ei ole triviaalne ülesanne, kuna lause ühel küljel võib mõeldavalt joondada ühe või mitme lause sihtmärgiks (või võimalik üldse mitte üldse!). Mõnikord teeb eksikas vigu ja Joondab ühe lause teisega, mis tegelikult ei ole tõlge. See võib kaasa tuua mõned valetõlked, eriti kui on sõnu allikas ja Target, mis on harva esinevate. Kuna meie tõlkemootor on statistiline, on see väga sõltuv koosesinemise sagedustel sõnade vahel lähte-ja sihtandmetes. Kui teatud sõnad on harva esinevad – näiteks inimeste nimed võivad esineda vaid paar korda üle miljonite lausete, – sageduse puudumine võib põhjustada valetõlkeid, mis tulenevad ebaõigest "oletusest" allika ja sihtmärgi vahel (st madal konkreetsele allikale ja sihtsõnadele määratud tõenäosused). See võib põhjustada mõningaid koomilisi gaffide meie tõlkesüsteemis.
Nii, nii et "masin" otsustas tõlkida viisil, mis lõppes kogukonnaga, mis omistades selle huumorimeelega meie meeskond. Kuigi me jätkame tööd, et tagada õige alignments, see on oodata statistiline süsteem, mis on ehitatud miljonitele miljardeid sõnu, et selline olukord võiks korrata.
Praegune probleem vastavusse viimine peaks nüüd olema lahendatud, kuid me kutsume meie kogukonna kasutajad hoida aidata meil tuvastada selliseid olukordi, võttes meiega ühendust selle blogi.
-Vikram