Politiski nepareizas mašīnas
Lai gan mēs pie Machine translation komanda ir redzēt pieaugošo satiksmes mūsu dažādiem piedāvājumiem pēdējo mēnešu laikā, mēs ievērojām pēkšņu sasist satiksmes vakar. Ņemot pieaudzis par Agatha Christie un Sherlock Holmes, piemēram mistērijas ir neatvairāms man-un vairāki citi folks par komandu bija tikpat ziņkārīgs, lai uzzinātu, kas izraisīja šo pēkšņo sasist. Mēs skatīja, ka IE8 aktivitāte/Paātrinātājs, tiek Kurjers bot, Meklēt tulkojumus, Biroja tulkojumi visi bija parādot to pašu augšupejošu tendenci, kā dienas pirms un tādējādi nebija īpašu iemeslu šo talants.
Galu galā, mums bija iespēja noteikt vienu potenciālo iemeslu, kāpēc mēs redzam šo smaile. Mūsu lietotāju Kopiena atrada dīvain, kā mašīntulkošanas dzinējs pārstrādā tulkojumu vairākiem nosaukumiem no angļu uz vācu. Tas bija sagaidāms, ka tad, kad motors pārveido nosaukumu kandidātu vienas puses, lai kāds no otras puses, ņemot vērā pašreizējo politisko atmosfēru, kas sākas ar ASV vēlēšanām, ka tas galu galā kā ziņas. Kamēr mēs noteikti Apsveicam visus jaunos lietotājus, kas nāca, lai pārbaudītu šo parādību out-mēs vēlējāmies dalīties ar mūsu lietotājiem iemesls, kāpēc šādas lietas, šķiet, notiek laiku pa laikam ar statistiski apmācīts mašīntulkošanas sistēmas, no mums un citiem.
Statistiskā mašīntulkošanas programma ir apmācīta daudz un daudz paralēlu datu, tas ir, dati, kas pastāv gan avotvalodā (piemēram, angļu valodā), gan mērķa valodā (piem., vācu), kur avots un mērķis ir viena cita tulkojums. Mūsu dzinējs ir apmācīts miljoniem sodu par katru valodu pāri, mēs atbalstām. Lai vilciens uz īpašu corpus datu-varbūt liels skaits Newswire rakstus angļu valodā, kas ir tulkoti vācu valodā-mums vispirms ir pārtraukums, ka corpus lejup teikumos. Pēc corpus ir teikums sadalīti, mēs barības rezultātā teikumus stājas teikums aligner, vienīgais mērķis ir noskaidrot, kādi teikumi par avota pusē saskaņot ar teikumiem par mērķa pusē. Tas nav trivial uzdevums, jo teikums vienā pusē varētu atvest saskaņot ar vienu vai vairākiem teikumiem par mērķi (vai, iespējams, neviens vispār!). Aligner dažreiz kļūdīties, un nepareizi vienu teikumu ar citu, kas patiesībā nav tulkojumu. Tas var izraisīt dažas neprātīgi, it īpaši, ja ir vārdi avota un mērķi, kas ir reti sastopami. Tā kā mūsu tulkošanas dzinējs ir statistisks, tas ir lielā mērā atkarīgs no sastopamības biežuma starp vārdiem avota un mērķa datiem. Ja daži vārdi ir reti sastopami-cilvēku vārdi, piemēram, var notikt tikai dažas reizes pa corpus miljonu teikumus-frekvences trūkums var novest pie nepatiesa, kas izriet no nepareizas "guesses" starp avota un mērķa (ti, zems iespējas, kas piešķirtas konkrētam avotam un mērķa vārdiem). Tas var novest pie dažas komiski gaffes mūsu tulkošanas sistēmu.
Tātad, tas ir, kā "mašīna" nolēma tulkot tādā veidā, kas beidzās ar Kopienas piedējot to humora izjūta mūsu komandu. Kamēr mēs turpinām cītīgi strādāt, lai nodrošinātu pareizu izlīdzināšanai, tas ir sagaidāms no statistikas sistēmas, kas ir balstīts uz miljoniem miljardiem vārdu, ka šāda situācija varētu atkārtot.
Pašreizējā problēma ar pielīdzināšanu tagad ir jāatrisina, bet mēs mudinām mūsu kopiena lietotājiem saglabāt palīdzot mums identificēt šādas situācijas, sazinoties ar mums, izmantojot šo emuāru.
--Vikram-