Politikailag helytelen gépek
Míg mi a Machine Translation csapata már látta növekvő forgalom a különböző ajánlatokat az elmúlt néhány hónapban, észrevettük a hirtelen botlik a forgalom tegnap. Miután nőttek fel a Agatha Christie és a Sherlock Holmes, az ilyen rejtélyek ellenállhatatlan számomra-, és számos más emberek a csapat éppen olyan kíváncsi, hogy megtudja, mi okozta ezt a hirtelen bump. Rájöttünk, hogy a IE8 tevékenység/GyorsítóA Messenger-bot, Keresés-fordítások, Office-fordítások mind azt mutatják, ugyanazt a felfelé mutató tendenciát, mint a nappal korábban, és így nem a konkrét oka a bump.
Végül is tudtuk azonosítani az egyik lehetséges oka annak, hogy mi voltunk látva ezt a tüske. A felhasználói Közösség talált egy furcsaság, hogy a gépi fordítás motor feldolgozott fordítás több név Angolról németre. Azt kell számítani, hogy amikor a motor lefordítja a nevét a jelölt az egyik fél, hogy valaki a másik fél, mivel a jelenlegi politikai hangulat a felfut az amerikai választásokat, hogy ez a végén a híreket. Miközben minden bizonnyal szívesen látjuk az új felhasználók számára, hogy jött, hogy ellenőrizze ezt a jelenséget ki-szerettük volna megosztani a felhasználóink az oka annak, hogy az ilyen dolgok úgy tűnik, hogy megtörténhet időről időre a statisztikailag képzett gépi fordítási rendszerek tőlünk és másoknak.
A statisztikus Gépi fordítóprogram a sok párhuzamos adat, azaz a forrásnyelvben (pl. angol) és a célnyelv (pl. német) által megtanult, ahol a forrás és a cél egy másik fordítása. A motorunk több millió mondat alapján van kiképezve minden egyes nyelvi párhoz. Annak érdekében, hogy a vonat egy adott korpusz adatok-talán számos Newswire cikkek angolul, amelyek lefordították német-először meg kell törni, hogy a corpus le mondatokat. Miután a corpus mondat törött, mi táplálja a kapott mondatokat egy mondat Aligner, az egyetlen célja, amely az, hogy milyen mondatokat a forrás oldalon összehangolja a mondatokat a cél oldalon. Ez nem triviális feladat, mivel a mondat egyik oldalán is elképzelhető, hogy összehangolják egy vagy több mondat a cél (vagy esetleg egyáltalán nem!). A szövegpárhuzamosító néha hibáznak, és félreigazítja egy mondatot egy másik, hogy valójában nem a fordítást. Ez vezethet néhány félrevezetések, különösen, ha vannak olyan szavak a forrás és a cél, amelyek ritkán előforduló. Mivel fordítóprogramunk statisztikai, nagymértékben függ a forrás-és a céladatban szereplő szavak közötti előfordulási gyakoriságtól. Ha bizonyos szavak ritkán fordulnak elő, akkor az emberek nevei például csak több millió mondat korpuszában jelentkezhetnek – a gyakoriság hiánya olyan félrevezetéseket eredményezhet, amelyek helytelen "találgatásokból" erednek a forrás és a cél között (azaz az alacsony a konkrét forrás-és célszavakra vonatkozó valószínűségeket). Ez ahhoz vezethet, hogy néhány komikus gaffes a mi fordítási rendszer.
Szóval, ez az, hogy a "gép" úgy döntött, hogy lefordítani oly módon, hogy végül a Közösség tulajdonított, hogy a humora a mi csapatunk. Miközben továbbra is keményen dolgozunk, hogy biztosítsák a megfelelő kiigazítás, ez várható egy statisztikai rendszer épül, hogy több millió több milliárd szó, hogy egy ilyen helyzet is megismételni.
A jelenlegi kérdés összehangolás most meg kell oldani, de sürgeti a Közösség a felhasználók számára, hogy folyamatosan segít azonosítani az ilyen helyzeteket, kapcsolatba lépni velünk ezt a blogot.
-Vikram