Gå til hovedindholdet
Oversætter
Denne side er automatisk oversat af Microsoft Translator maskinoversættelsestjeneste. Lær mere

Microsoft Translator blog

Microsoft Translator udgiver litterær kinesisk oversættelse

Når du læser urgammel kinesisk poesi, vi ofte undre sig over de meget vidunderlige ord gamle forfattere kunne bruge til at beskrive mennesker, begivenheder, genstande og scener. Dette er en pragtfuld kulturskat, der er blevet efterladt for os. Men i lighed med Shakespeare's vers i det engelske sprog, den litterære kinesisk, der anvendes af disse digtere er ofte svært for moderne mennesker at forstå, og de betydninger og finesser indlejret i det er ofte tabt.  

For at løse dette problem vedtog forskere ved Microsoft Research Asia de nyeste neurale maskinoversættelsesteknikker til at træne direkte oversættelsesmodeller mellem litterær kinesisk og moderne kinesisk, hvilket også resulterer i at skabe oversættelsesfunktioner mellem litterære kinesere og mere end 90 andre sprog og dialekter i Microsoft Translator. I øjeblikket er litterær kinesisk oversættelse blevet integreret i Microsoft Translator app, Oversætter af Azure Cognitive Servicesog en række Microsoft-produkter, der understøttes af Microsoft Translator-tjenester. 

Billede: Maleriet fra "West Mountain i Misty Rain" af Shen Zhou, Ming-dynastiet. Det gamle kinesiske digt om maleriet er fra Yong Liu, Det Nordlige Sang-dynasti. Digtet skildrer forårslandskabet i det sydlige Kina under Qingming Festival og velstanden i det sociale liv.

Gør det muligt for flere mennesker at sætte pris på charmen ved traditionel kinesisk kultur 

Litterære kinesere er en vigtig bærer af traditionel kinesisk kultur. Omfangsrige bøger og tekster fra oldtiden har indspillet Kina's rige og dybe kultur i løbet af de sidste fem tusinde år. De tanker og visdom akkumuleret og indeholdt i dem er værdige til løbende udforskning og tænkning.  

Ved hjælp af maskinoversættelse kan turister nu forstå gamle kinesiske tekster og digte skrevet på historiske bygninger og monumenter, studerende har nu et ekstra værktøj til at hjælpe dem med at lære kinesisk, og forskere, der er involveret i at indsamle og oversætte gamle tekster, kan være mere produktive.     

Dongdong Zhang, en ledende forsker ved Microsoft Research Asia, sagde: "Fra et teknisk perspektiv kan litterær kinesisk betragtes som et separat sprog. Når oversættelsen mellem litterær kinesisk og moderne kinesisk er realiseret, bliver oversættelsen mellem litterært kinesisk og andre sprog som engelsk, fransk og tysk en selvfølge."  

Største vanskeligheder ved litterær kinesisk oversættelse AI model: Lidt uddannelse data 

Det mest kritiske element i AI-modeltræning er data. Kun når datamængden er stor nok, og dens kvalitet er høj nok Cna Du uddanne en mere præcis model. I maskinoversættelse kræver uddannelsen af modellen tosprogede data: originale tekstdata og målsprogsdata. Oversættelsen af litterære kinesiske er meget speciel, som det er'er ikke et sprog, der anvendes i dagligdagen.  Sammenlignet med oversættelsen af andre sprog er træningsdataene for litterær kinesisk oversættelse derfor meget små, hvilket ikke er befordrende for uddannelsen af maskinoversættelsesmodeller.   

Selvom Forskere fra Microsoft Research Asia indsamlede en masse offentligt tilgængelige litterære og moderne kinesiske data i de tidlige stadier, kan de oprindelige data ikke bruges direkte. Datarensning skal udføres for at normalisere data fra forskellige kilder, forskellige formater samt fuld bredde /tegnsætninger i halv bredde, som et middel til at minimere interferensen af ugyldige data om modeltræning. På denne måde reduceres de faktiske tilgængelige data af høj kvalitet yderligere.  

Ifølge Shuming Ma, en forsker ved Microsoft Research Asia, for at reducere problemet med data sparseness, har forskere udført en stor mængde datasyntese og augmentation arbejde, herunder: 

For det første, almindelig karakter baseret tilpasning og udvidelse for at øge størrelsen på træningsdata. Forskellig fra oversættelser mellem kinesiske og andre sprog som engelsk, fransk, russisk osv., litterær kinesisk og moderne kinesisk bruger det samme tegnsæt. Ved at drage fordel af denne funktion har forskere hos Microsoft Research Asia brugt innovative algoritmer til at tillade maskinoversættelse at huske almindelige tegn, foretage naturlig justering og derefter udvide yderligere til ord, sætninger og korte sætninger og derved syntetisere en stor mængde brugbare data.  

For det andet deformer sætningsstruktur for at forbedre robustheden af maskinoversættelse. Angående pauser i tekster og digte, forskere har tilføjet en række varianter for at gøre maskiner mere omfattende i at lære gamle digte. For folk, selv når de ser en sætning, der er struktureret unormalt, såsom et digt segmenteret i linjer baseret på rytme snarere end fulde sætninger, kan de stadig sætte delene sammen og forstå det. Men for en oversættelsesmodel, der aldrig har set en sådan segmentering før, vil den sandsynligvis blive forvirret. Derfor kan transformation af dataformat ikke kun udvide mængden af træningsdata, men også forbedre robustheden af oversættelsesmodeltræningen.  

For det tredje skal du gennemføre traditionel og forenklet karakteroversættelsestræning for at øge modellens tilpasningsevne. På kinesisk findes der traditionelle figurer på både litterært og moderne kinesisk. Når forskere uddannet modellen, for at forbedre tilpasningsevnen af modellen, de ikke kun gearede data i forenklet kinesisk, men også tilføjet data i traditionel kinesisk, samt data blandet med traditionelle og forenklede tegn. Således kan modellen forstå både det traditionelle og forenklede indhold, hvilket fører til mere nøjagtige oversættelsesresultater.   

For det fjerde øge uddannelsen af fremmedsprogede ord for at forbedre oversættelsens nøjagtighed. Når man oversætter moderne kinesisk til litterært kinesisk, er der ofte moderne ord afledt af fremmedsprogede ord og nye ord, der aldrig er dukket op på gammel kinesisk, såsom "Microsoft", "computer", "højhastighedstog" og mange andre kan lide det. For at håndtere dette problem trænede forskere en lille model til at genkende enheder. Modellen oversatte først betydningen af ordet uden for enheden og fyldte derefter enheden tilbage for at sikre maskinens nøjagtighed.'s behandling af de udenlandske ord.    

Billede: THan litterære kinesiske oversættelsesproces

Hertil kommer, at for uformelle skrivestile såsom blogs, fora, Weibo, og så videre, maskinen oversættelse model er blevet uddannet specielt til yderligere at forbedre robustheden af oversættelse mellem moderne og litterære kinesiske.  

Dongdong Zhang udtrykte: "Baseret på det nuværende oversættelsessystem vil vi fortsætte med at berige datasættet og forbedre modeltræningsmetoden for at gøre den mere robust og alsidig. I fremtiden kan metoden ikke kun bruges til litterær kinesisk oversættelse, men kan også udvides til andre applikationsscenarier."