Gå til hovedindholdet
Oversætter
Denne side er automatisk oversat af Microsoft Translator maskinoversættelsestjeneste. Lær mere

Microsoft Translator blog

Politisk ukorrekte maskiner

Mens vi på maskinen Translation team har været at se stigende trafik til vores forskellige tilbud i løbet af de sidste par måneder, bemærkede vi en pludselig bump i trafikken i går. Efter at være vokset op på Agatha Christie og Sherlock Holmes, er sådanne mysterier uimodståelige for mig-og en række andre folk på holdet var lige så nysgerrig efter at finde ud af, hvad der forårsagede denne pludselige bump. Vi regnede med, at IE8 aktivitet/Accelerator, Messenger bot, Søg oversættelser, Office oversættelser alle viste den samme opadgående tendens som dagene før og dermed ikke var den specifikke årsag til denne bump.

Til sidst, vi var i stand til at identificere en potentiel årsag til, at vi var vidne til denne Spike. Vores brugerfællesskab fandt en mærksomhed på, hvordan maskin oversættelses programmet behandlede oversættelsen for flere navne fra engelsk til tysk. Det kunne forventes, at når motoren oversætter navnet på kandidaten til en part til en person fra den anden part, i betragtning af den nuværende politiske atmosfære i løbet op til det amerikanske valg, at det ville ende som nyheder. Mens vi helt sikkert velkommen til alle de nye brugere, der kom ved at kontrollere dette fænomen ud-vi ønskede at dele med vores brugere grunden til, at sådanne ting synes at ske fra tid til anden med statistisk uddannet maskinoversættelsessystemer fra os og andre.

En statistisk maskine oversættelse motor er uddannet på masser og masser af parallelle data, der er, data, der findes i både et kildesprog (f. eks engelsk) og et målsprog (f. eks, tysk), hvor kilden og målet er oversættelser af hinanden. Vores motor er uddannet på millioner af sætninger for hvert sprogpar, vi støtter. For at træne på et bestemt korpus af data-måske et stort antal Newswire artikler på engelsk, som er blevet oversat til tysk-vi først nødt til at bryde denne Corpus ned i sætninger. Efter Corpus er sætning brudt, vi fodre de resulterende sætninger i en sætning aligner, det eneste formål er at finde, hvilke sætninger på kildesiden justere med sætninger på målet side. Dette er ikke nogen triviel opgave, da en sætning på den ene side kunne tænkes at tilpasse sig en eller flere sætninger på målet (eller måske slet ingen!). Den aligner vil nogle gange begå fejl, og mistilpasse en sætning med en anden, der er i virkeligheden ikke en oversættelse. Dette kan føre til nogle fejloversættelser, især hvis der er ord i kilden og mål, der sjældent forekommer. Da vores oversættelsesprogram er statistisk, er det meget afhængig af hyppigheden af co-forekomst mellem ord i kilde-og måldata. Hvis visse ord sjældent forekommer-folks navne, for eksempel, kan kun forekomme et par gange på tværs af et korpus af millioner af sætninger-den manglende hyppighed kan føre til fejloversættelser som følge af forkerte "gæt" mellem kilde og mål (dvs., lav der er tildelt bestemte kilde-og målord). Dette kan føre til nogle komiske Gaffer i vores oversættelsessystem.

Så, det er, hvordan "maskinen" besluttede at oversætte på en måde, der endte med, at samfundet tilregne det til den sans for humor af vores team. Mens vi fortsat arbejder hårdt på at sikre ordentlige tilpasninger, kan det forventes af et statistisk system, der bygger på millioner til milliarder af ord, som en sådan situation kan gentage.

Den indeværende oplag hos tilpasning burde nu være løst men vi opfordre vor samfundet i brugernes hen til opbevare hjalp os identificere hvilken som helst sådan situationer af kontakter os igennem indeværende blog.

-Hvad er det?

Vikram dendi fører forretningsstrategi & produktplanlægning for Microsoft Translator-teamet