Gå till huvudinnehåll
Översättare
Den här sidan har översatts automatiskt av Microsoft Translator: s maskinöversättningstjänst. Lära sig mer

Microsoft Translator blogg

Statistisk maskin översättning – gäst blogg (uppdaterad med ytterligare papper)

Will Lewis är program chef för Microsoft Translator-teamet som arbetar med språk kvalitet och data insamling.  Dagens gäst blogg är en hög nivå förklaring av hur motorn fungerar:  

Som många av er vet, under huven Microsoft Translator drivs av en statistisk maskin översättning (SMT) motor.  Statistiska system är annorlunda än regelbaserade sådana att de "regler" som kartlägger ord och fraser från ett språk till ett annat är inlärda av systemet snarare än att vara handkodade.  Utbildning en SMT kräver att samla en stor mängd parallella utbildning data-förhoppnings vis av god kvalitet och från heterogena källor-och utbildning av motorn på dessa data.  (Parallellt menar vi en data källa där innehållet för ett språk är detsamma som innehållet för det andra språket.)  Motorn lär sig överensstämmelser mellan ord och fraser på ett språk och de i en annan, som ofta förstärks av upprepade förekomster av samma ord och fraser i hela input.  Till exempel, i utbildning av det engelsk-tyska systemet låt oss säga, om motorn ser frasen Alla rättigheter förbehållna på den engelska sidan och även meddelanden Mer från Alle Rechte vorbehalten på den tyska sidan, kan det anpassa dessa två fraser, och tilldela en viss sannolikhet för denna anpassning.  Upprepade förekomster av käll-och mål fraserna i utbildningsdatan kommer endast att förstärka justeringen.

I allmänhet, med parallella data för ett språkpar innebär att vi kan utbilda motorer i båda riktningarna (dvs, både den engelska-tyska och den tyska-engelska system kan utbildas på samma input meningar).  Några av er hade några frågor om varför det var att vi släppte det engelska-spanska systemet innan vi släppte spanska-engelska.  Det fanns egentligen två anledningar.  Första, Engelsk-spansk var den första General domän språk para samman vi befriaren.  Att släppa ett språk par tillät oss att testa infrastrukturen innan vi började släppa mer.  För det andra var tekniken för spansk-engelska något annorlunda än den som används för engelska-spanska, och vi behöver lite extra tid att göra de nödvändiga infrastrukturella förändringar för att rymma.  I framtiden planerar vi att släppa nya översättnings system i par (med ett par undantag).  Jag kan inte avslöja vilka språk vi har planerat härnäst, men förvänta dig några nya snart!

För dig som är intresse rad av tekniska diskussioner om våra motorer och hur de fungerar, hänvisas till några av de artiklar som forskarna utvecklat.  Tre nya uppsatser av anmärkning är:

Chris Quirk, Arul Menezes. Behöver vi fraser? Utmanar den konventionella visdom i statistisk maskin Översättning Maj 2006 New York, New York, USA Proceedings av HLT-NAACL 2006

Chris Quirk, Arul Menezes. Beroende Treelet översättning: konvergensen av statistiska och exempel-baserad maskin Översättning? Mars 2006 maskin översättning 43-65 (bifogad fil)


Chris Quirk, Arul Menezes. Använda Beroendeordermallar för att förbättra GENERALITETEN i översättningen 2007 juli Föreningen för datorlingvistik

Beroende Treelet översättning konvergensen av statistiska och exempel-baserade machinetranöversättnings. pdf