Gå til hovedinnhold
Oversetter
Denne siden er automatisk oversatt av Microsoft Translator sin maskinoversettelsestjeneste. få mer informasjon

Microsoft oversetter blogg

Statistisk maskin oversettelse-Guest Blog (oppdatert med ekstra papir)

Will Lewis er et program manager på Microsoft Translator team, arbeider med språk kvalitet og datainnsamling.  Dagens gjest blogg er et høyt nivå forklaring på hvordan motoren fungerer:  

Som mange av dere vet, under panseret Microsoft Translator er drevet av en statistisk maskin oversettelse (SMT) motor.  Statistiske systemer er annerledes enn regel-baserte seg i at "regler" kartlegging ord og fraser fra ett språk til et annet er lært av systemet i stedet for å være hånd-kodet.  Trening en SMT krever samle en stor mengde parallelle treningsdata-forhåpentligvis av god kvalitet og fra heterogene kilder-og opplæring motoren på disse dataene.  (Parallelt mener vi en kilde til data der innholdet for ett språk er det samme som innholdet for det andre.)  Motoren lærer Correspondences mellom ord og uttrykk i ett språk og de i en annen, som ofte forsterkes av gjentatte forekomster av samme ord og fraser gjennom input.  For eksempel, i opplæring i engelsk-tyske systemet la oss si, hvis motoren ser uttrykket Alle rettigheter forbeholdt på den engelske siden og også merknader Alle Rechte vorbehalten på tysk side, kan det justere disse to setningene, og tildele noen sannsynlighet til denne justeringen.  Gjentatte forekomster av kilde-og målsetningene i treningsdataene vil bare forsterke denne justeringen.

Vanligvis, etter å ha parallelle data for et språk pair betyr at vi kan trene motorer i begge retninger (dvs. både engelsk-tysk og tysk-engelske systemer kan trenes på samme innspill setninger).  Noen av dere hadde noen spørsmål om hvorfor det var at vi ga ut det engelsk-spanske systemet før vi ga ut spansk-engelsk.  Det var egentlig to grunner.  Først, engelsk-spansk var den første generelle domene språkparet vi utgitt.  Ved å utgi et språk par kunne vi teste infrastrukturen før vi begynte å slippe mer.  For det andre var teknologien for spansk-engelsk litt annerledes enn den som brukes for engelsk-spansk, og vi trenger litt ekstra tid til å gjøre de nødvendige infrastruktur endringer for å imøtekomme.  I fremtiden planlegger vi å lansere nye Oversettelses systemer i par (med et par unntak).  Jeg kan ikke avsløre hvilke språk vi har planlagt neste, men forventer noen nye snart!

For de av dere som er interessert i tekniske diskusjoner om våre motorer og hvordan de fungerer, kan du se noen av avisene av forskerne som utviklet dem.  Tre nylige papirer av notatet er:

Chris innfall, Arul Menezes. Trenger vi fraser? Utfordrende den konvensjonelle visdommen i statistisk maskin oversettelse Mai 2006 New York, USA Proceedings av HLT-NAACL 2006

Chris innfall, Arul Menezes. Avhengighet Treelet oversettelse: konvergens av statistisk og eksempel-basert maskin oversettelse? Mars 2006 Machine oversettelse 43-65 (vedlagt fil)


Chris innfall, Arul Menezes. Bruke maler for avhengighet for å forbedre omfanget i oversettelsen Juli 2007 Foreningen for beregningsorientert lingvistikk

Avhengighet Treelet oversettelse konvergens av statistisk og eksempel-basert machinetranslation. PDF