Siirry päähistoria
Kääntäjä
Microsoft Translatorin kone käännös palvelu on kääntänyt tämän sivun automaattisesti. Opi lisää

Microsoft Kääntäjä blogi

Microsoft Translator julkaisee kirjallisen kiinankielisen käännöksen

Kun luet muinainen kiina Runoutta, me usein ihmettelemme erittäin upeita sanoja, joita muinaiset kirjailijat voisivat käyttää kuvaamaan ihmisiä, tapahtumia, esineitä ja kohtauksia. Tämä on loistava kulttuuriaarre, joka on jätetty meille. Kuitenkin samanlainen kuin Shakespeare'säkeet englannin kielellä, näiden runoilijoiden käyttämä kirjallinen kiina on usein vaikea ymmärtää nykyajan ihmisille, ja sen merkitykset ja hienovaraisuudet menetetään usein.  

Tämän ongelman ratkaisemiseksi Microsoft Research Aasian tutkijat ottivat käyttöön uusimmat hermokonekäännöstekniikat kouluttaakseen suoria käännösmalleja kirjallisuuden kiinan ja modernin kiinan välillä, mikä johtaa myös käännösominaisuuksien luomiseen kirjallisen kiinan ja yli 90 muuta kieltä ja murteet Microsoft Translatorissa. Tällä hetkellä kirjallinen kiinankielinen käännös on integroitu Microsoft Kääntäjä App, Azure-kognitiivisten palveluiden kääntäjäja useita Microsoft Translator -palveluiden tukemia Microsoft-tuotteita. 

Kuva: Shen Zhoun maalaus "West Mountain in Misty Rain", Ming Dynasty. Muinainen kiinalainen runo maalauksesta on Yong Liu, Pohjoisen lauludynastia. Runo kuvaa Etelä-Kiinan kevätmaisemia Qingming-festivaalin aikana ja sosiaalisen elämän vaurautta.

Antaa useammalle mahdollisuuden arvostaa perinteisen kiinalaisen kulttuurin viehätystä 

Kirjallinen kiina on tärkeä perinteisen kiinalaisen kulttuurin kantaja. Muinaiset kirjat ja tekstit ovat tallentaneet Kiinan'rikas ja syvällinen kulttuuri viimeisten 5 000 vuoden aikana. Niihin kertyneet ja niihin sisältyvät ajatukset ja viisaus ovat jatkuvan tutkimisen ja ajattelun arvoisia.  

Konekäännösten avulla turistit voivat nyt ymmärtää muinaisia kiinalaisia tekstejä ja runoja, jotka on kirjoitettu historiallisiin rakennuksiin ja monumentteihin, opiskelijoilla on nyt ylimääräinen työkalu, joka auttaa heitä oppimaan kiinaa, ja tutkijat, jotka osallistuvat muinaisten tekstien kokoamiseen ja kääntämiseen, voivat olla tuottavampia.     

Microsoft Research Aasian johtava tutkija Dongdong Zhang sanoi: "Teknisestä näkökulmasta kirjallista kiinaa voidaan pitää erillisenä kielenä. Kun käännös kirjallisuuden kiinan ja modernin kiinan välillä toteutuu, käännöksestä kirjallisuuden kiinan ja muiden kielten, kuten englannin, ranskan ja saksan, välillä tulee itsestäänselvyys."  

Kirjallisuuden kiinankielisen käännöksen tekoälymallin suurin vaikeus: Vähän koulutustietoja 

Tekoälymallikoulutuksen kriittisin elementti on data. Vain silloin, kun datamäärä on riittävän suuri ja sen laatu riittävän korkea Cna sinun kouluttaa tarkempaa mallia. Konekäännöksessä mallin koulutus vaatii kaksikielisiä tietoja: alkuperäisiä tekstitietoja ja kohdekielitietoja. Kirjallisuuden kiinan kääntäminen on hyvin erityistä, sellaisena kuin se on"ei ole jokapäiväisessä elämässä käytetty kieli.  Siksi muiden kielten kääntämiseen verrattuna kirjallisuuden kiinankielisen käännöksen koulutustiedot ovat hyvin pieniä, mikä ei edistä konekäännösmallien koulutusta.   

Vaikka Microsoft Research Asia -tutkijat keräsivät alkuvaiheessa paljon julkisesti saatavilla olevaa kirjallista ja modernia kiinalaista dataa, alkuperäistä dataa ei voi suoraan käyttää. Tietojen puhdistus on suoritettava eri lähteistä, eri muodoista ja täysleveydestä peräisin olevien tietojen normalisoimiseksi/puolileveät välimerkit, minimoidaan virheellisten tietojen puuttuminen mallikoulutukseen. Tällä tavoin todellinen saatavilla oleva korkealaatuinen tieto vähenee entisestään.  

Microsoft Research Asian tutkijan Shuming Ma:n mukaan tutkijat ovat tehneet tietojen niukkuutta vähentävän ongelman vähentämiseksi suuren määrän datasynteesiä ja augmentaatiotyötä, muun muassa: 

Ensinnäkin yhteinen luonne yhdenmukaistaminen ja laajentaminen koulutustietojen koon lisäämiseksi. Erilainen kuin kiinan ja muiden kielten, kuten englannin, ranskan, venäjän jne., kirjallisen kiinan ja modernin kiinan väliset käännökset käyttävät samaa merkistöä. Tätä ominaisuutta hyödyntäen Microsoft Research Asia -tutkimuksen tutkijat ovat käyttäneet innovatiivisia algoritmeja, joiden avulla konekäännös voi palauttaa yleisiä merkkejä, suorittaa luonnollisen kohdistuksen ja laajentua sitten sanoiksi, lauseiksi ja lyhyiksi lauseiksi, mikä syntetisoi suuren määrän käyttökelpoista tietoa.  

Toiseksi, epämuodostunut lauserakenne parantaa konekäännöksen kestävyyttä. Koskien taukoja teksteissä ja runoissa, tutkijat ovat lisänneet useita muunnelmia, jotta koneet olisivat kattavampia muinaisten runojen oppimisessa. Ihmisille, vaikka he näkevät lauseen, joka on rakennettu epänormaalisti, kuten runo, joka on segmentoitu rytmeihin eikä täysiin lauseisiin, he voivat silti koota osat yhteen ja ymmärtää sen. Mutta käännösmallille, joka ei ole koskaan ennen nähnyt tällaista segmentointia, se on todennäköisesti hämmentynyt. Siksi tietomuodon muuntaminen voi paitsi laajentaa koulutusdatan määrää myös parantaa käännösmallikoulutuksen kestävyyttä.  

Kolmanneksi on suoritettava perinteistä ja yksinkertaistettua hahmokäännöskoulutusta mallien muunneltavuuden lisäämiseksi. Kiinaksi perinteiset hahmot ovat sekä kirjallisia että moderneja kiinalaisia. Kun tutkijat kouluttivat mallia parantaakseen mallin sopeutumiskykyä, he eivät ainoastaan hyödyntäneet tietoja yksinkertaistetulla kiinalla, vaan lisäsivät myös tietoja perinteisellä kiinalla sekä tietoja, jotka oli sekoitettu perinteisiin ja yksinkertaistettuihin merkeiin. Näin malli ymmärtää sekä perinteistä että yksinkertaistettua sisältöä, mikä johtaa tarkempiin käännöstuloksiin.   

Neljänneksi on lisättävä vieraskielisten sanojen koulutusta käännösten tarkkuuden parantamiseksi. Kun nyky kiinaa muunnetaan kirjalliseksi kiinaksi, on usein nykyaikaisia sanoja, jotka on johdettu vieraskielisistä sanoista ja uusista sanoista, jotka eivät ole koskaan ilmestyneet muinaisella kiinalla, kuten "Microsoft", "tietokone", "suurnopeusjuna" ja monet muut pitävät siitä. Tämän ongelman asian asian parissa tutkijat kouluttivat pienen mallin tunnistamaan kokonaisuuksia. Malli käänsi ensin sanan merkityksen entiteetin ulkopuolella ja täytti entiteetin takaisin varmistaakseen koneen tarkkuuden'vierassanojen käsittelyä.    

Kuva: THän kirjallinen kiina käännösprosessi

Lisäksi epävirallisissa kirjoitustyyleissä, kuten blogeissa, foorumeissa, Weibossa ja niin edelleen, konekäännösmalli on koulutettu erityisesti parantamaan edelleen käännöksen kestävyyttä modernin ja kirjallisen kiinan välillä.  

Dongdong Zhang ilmaisi: "Nykyisen käännösjärjestelmän perusteella jatkamme tietojoukkojen rikastamista ja mallinnusmenetelmän parantamista, jotta se olisi kestävämpi ja monipuolisempi. Jatkossa menetelmää voidaan käyttää paitsi kirjalliseen kiinankieliseen kääntämiseen, myös muihin sovellusskenaarioihin."