Microsoft Translator ' i masintõlke teenus on selle lehe automaatselt tõlkinud. Lisateave

Microsofti tõlkija blogi

Statistiline masin tõlge – Guest blogi (uuendatud täiendava paberiga)

Will Lewis on Microsoft translaatori meeskonna Programmihaldur, kes töötab keele kvaliteedi ja andmete omandamise kallal.  Tänane külaline blogi on kõrge taseme selgitus, kuidas mootor töötab:  

Nagu paljud teist teavad, kapoti all on Microsoft Translator powered by statistiline masin Translation (SMT) mootor.  Statistikasüsteemid on erinevad kui reeglipõhised, sest "reeglid" vastendatakse sõnu ja fraase ühest keelest teise, selle asemel et olla käsitsi kodeeritud.  Koolitus SMT nõuab, et amgaseerimine suur hulk paralleelseid koolitusandmeid – loodetavasti hea kvaliteediga ja heterogeensed allikad — ja koolituse mootor neid andmeid.  (Paralleelselt peame silmas andmeallikat, kus ühe keele sisu on sama mis teise sisu puhul.)  Mootor õpib sõnade ja fraaside vahelisi vastavusi ühes ja teises keeles ning neid on sageli tugevdatud samade sõnade ja fraaside korduvate esinemiskordade abil kogu sisendi ulatuses.  Näiteks inglise-saksa süsteemi koolitusel ütleme, et kui mootor näeb fraasi Kõik õigused kaitstud Inglise poolel ja samuti teateid Alle Rechte vorbehalten Saksamaa poolel võib see viia need kaks fraasi vastavusse ja määrata sellele joondusele mõningase tõenäosuse.  Lähteandmete korduvad esinemisjuhud ja sihtlaused koolitusandmetes tugevdavad ainult seda ühtlustamist.

Üldiselt on keelepaaride puhul paralleelsed andmed mõeldud nii, et me saame treenida mootorites mõlemas suunas (st nii inglise-saksa kui ka saksa-inglise süsteeme saab õpetada samade sisendlausete alusel).  Mõnedel on mõned küsimused selle kohta, miks me vabastasime inglise-Hispaania süsteemi enne Hispaania-inglise keele vabastamist.  Sellel oli tõesti kaks põhjust.  Esiteks, inglise-Hispaania oli esimene üldine domeeni keelepaar me vabastasime.  Ühe keele paari vabastamine võimaldas meil testida taristut enne, kui alustasime rohkem vabastamist.  Teiseks, Hispaania-inglise keele tehnoloogia oli veidi teistsugune kui inglise-hispaania keel ja meil on vaja lisaaega, et teha vajalikke infrastruktuuriga seotud muudatusi.  Tulevikus plaanime vabastada uued tõlkesüsteemid paarides (koos mõne erandiga).  Ma ei saa avaldada, mis keeli me järgmiseks plaanisime, kuid ootame varsti uusi!

Neile, kes on huvitatud meie mootorite kohta tehtud tehnilistest aruteludest ja sellest, kuidas nad töötavad, tutvuge nende teadlastega, kes need välja arendas.  Kolm hiljutise kirja lehte on:

Chris Quirk, Arul Menezes. Kas me vajame fraase? Traditsioonilise tarkuse vaidlustamine statistilistes masintõlkes Mai 2006 New York, New York, Ameerika Ühendriigid HLT-NAACL-i menetlus 2006

Chris Quirk, Arul Menezes. Sõltuvus Treelet tõlkimine: statistika ja eeskuju põhinev masintõlke lähenemine? Märts 2006 Masintõlge 43-65 (manustatud fail)


Chris Quirk, Arul Menezes. Sõltuvusjärjestuse mallide kasutamine tõlkimisel Generilisuse parandamiseks Juuli 2007 Arvutuslingvistika Assotsiatsioon

Sõltuvus Treelet tõlkimine statistilise ja näidispõhise machinetranslation lähenemine. pdf