Microsoft Prevajalec izdaja literarni kitajski prevod

Objavljeno dne 25. avgust 202130. avgust 2021z Microsoft Translator

Pri branju starodaven kitajščina Poezija, pogosto se čudimo zelo čudovitim besedam, ki bi jih starodavni pisatelji lahko uporabili za opis ljudi, dogodkov, predmetov in prizorov. To je čudovit kulturni zaklad, ki je ostal za nami. Vendar je podobno kot Zdravilo Shakespeare's verze v angleškem jeziku, literarna kitajščina, ki jo uporabljajo ti pesniki, je pogosto težko razumeti sodobne ljudi, in pomene in subtinosti, vgrajene v to, pogosto izgubijo.

Za rešitev tega problema so raziskovalci v Microsoft Research Asia sprejeli najnovejše tehnike prevajanja nevralnih strojev za usposabljanje modelov neposrednega prevajanja med literarno kitajščino in sodobno kitajščino, kar ima za posledico tudi ustvarjanje prevajalskih zmogljivosti med literarno kitajščino in več kot 90 drugih jezikov in narečja v programu Microsoft Translator. Trenutno je literarni kitajski prevod vključen v Microsoft Translator app, Prevajalec kognitivnih storitev Azurein številne Microsoftove izdelke, ki jih podpirajo microsoftove prevajalske storitve.

Slika: Slika iz "West Mountain in Misty Rain" od Shen Zhou, dinastija Ming. Starodavna kitajska pesem na sliki je iz Yong Liu, dinastija Severnih pesmi. Pesem prikazuje pomladno pokrajino na jugu Kitajske med Qingming festivalom in blaginjo družbenega življenja.

Omogočanje več ljudem, da cenijo čar tradicionalne kitajske kulture

Literarna kitajščina je pomemben nosilec tradicionalne kitajske kulture. Voluminous knjige in besedila iz starodavnih časov so posneli Kitajsko'bogate in globoke kulture v zadnjih pet tisoč letih. Misli in modrosti, ki so se nabrale in jih vsebujejo, so vredne nenehnega raziskovanja in premišljevanja.

S pomočjo strojnega prevajanja lahko turisti zdaj razumejo starodavna kitajska besedila in pesmi, napisane na zgodovinskih stavbah in spomenikih, študenti imajo zdaj dodatno orodje za pomoč pri učenju kitajščine, raziskovalci, ki se ukvarjajo s kolalacijo in prevajanje starodavnih besedil, pa so lahko bolj produktivni.

Dongdong Zhang, glavni raziskovalec pri Microsoft Research Asia, je dejal: "S tehničnega vidika lahko literarno kitajščino štejemo za ločen jezik. Ko se prevod med literarno kitajščino in sodobno kitajščino realizira, postane prevod med literarno kitajščino in drugimi jeziki, kot so angleščina, francoščina in nemščina, seveda stvar.«

Največja težava literarnega kitajskega prevoda AI model: Malo podatkov o usposabljanju

Najbolj kritičen element usposabljanja modelov AI so podatki. Samo, ko je dovolj velik obseg podatkov in njegova kakovost dovolj visoka Cna Yhu izučiti natančnejšo model. Pri strojnem prevajanju usposabljanje modela zahteva dvojezične podatke: izvirne besedilne podatke in podatke o ciljnem jeziku. Prevod literarnega kitajščine je zelo poseben, kot je to"ni jezik, ki se uporablja v vsakdanjem življenju. Zato je v primerjavi s prevajanjem drugih jezikov podatki o usposabljanju literarnega kitajskega prevajanja zelo majhni, kar ne ugaja usposabljanju modelov strojnega prevajanja.

Čeprav so raziskovalci Microsoft Research Asia v zgodnjih fazah zbrali veliko javno dostopnih literarnih in sodobnih kitajskih podatkov, prvotnih podatkov ni mogoče neposredno uporabiti. Čiščenje podatkov je treba opraviti za normalizacijo podatkov iz različnih virov, različnih formatov, pa tudi polne širine/ločila pol širine, kot sredstvo za zmanjšanje vmešavanja neveljavnih podatkov o usposabljanju modelov. Na ta način se dejanski razpoložljivi visokokakovostni podatki dodatno zmanjšajo.

Po mnenju Shuming Ma, raziskovalca v Microsoft Research Asia, da bi zmanjšali vprašanje redkosti podatkov, so raziskovalci opravili veliko količino sinteze in povečanja podatkov, vključno z:

Prvič, skupni znak– in razširitev, da bi povečali velikost podatkov o usposabljanju. Drugačno od prevodi med kitajščino in drugimi jeziki, kot so angleščina, francoščina, ruščina itd., literarna kitajščina in sodobna kitajščina uporabljajo isti nabor znakov. S to funkcijo so raziskovalci v Microsoft Research Asia uporabili inovativne algoritme, ki omogočajo strojno prevajanje, da odpokličejo skupne znake, izvedejo naravno poravnavo, nato pa se še razširijo na besede, fraze in kratke stavke, s čimer sintetizujejo veliko količino uporabenih podatkov.

Drugič, deformacija stavkovne strukture za izboljšanje robustnosti strojnega prevajanja. Glede prelomi v besedilih in pesmih, raziskovalci so dodali številne variante, da bi stroji bolj celovito pri učenju starodavnih pesmi. Za ljudi, tudi ko vidijo stavek, ki je strukturiran nenormalno, kot je pesem, segmentirana v črte, ki temelji na ritmu in ne na polnih stavkih, lahko še vedno sestavijo dele in jo razumejo. A za prevajalski model, ki še nikoli ni videl takšne segmentacije, bo to povsem zmedeno. Zato lahko preoblikovanje podatkovnega formata ne samo razširi količino podatkov o usposabljanju, temveč tudi izboljša robustnost usposabljanja prevajalskih modelov.

Tretjič, izvajati tradicionalno in poenostavljeno usposabljanje za prevajanje znakov za povečanje prilagodljivosti modela. V kitajščini tradicionalni liki obstajajo tako v literarni kot sodobni kitajščini. Ko so raziskovalci izurili model, da bi izboljšali prilagodljivost modela, niso le poenostavili podatkov v poenostavljeni kitajščini, temveč so dodali tudi podatke v tradicionalni kitajščini, pa tudi podatke, pomešane s tradicionalnimi in poenostavljenimi znaki. Tako lahko model razume tako tradicionalno kot poenostavljeno vsebino, kar vodi do natančnejših prevajalskih rezultatov.

Četrtič, povečajte usposabljanje tujih besed za izboljšanje točnosti prevajanja. Pri prevajanju sodobnega kitajščine v literarno kitajščino so pogosto sodobne besede, ki izhajajo iz tujih jezikovnih besed in novih besed, ki se nikoli niso pojavile v starodavni kitajščini, kot so »Microsoft«, »računalnik«, »hitri tir«, in mnoge druge, kot je to. Za obravnavanje tega vprašanja so raziskovalci izurili majhen model za prepoznavanje entitet. Model je najprej prevedla pomen besede zunaj subjekta, nato pa je zapolnila entiteto nazaj, da bi zagotovila točnost stroja'obdelavo tujih besed.

Slika: TJe literarna kitajščina postopek prevajanja

Poleg tega je bil za neformalne sloge pisanja, kot so blogi, forumi, Weibo in tako naprej, model strojnega prevajanja usposobljen posebej za dodatno izboljšanje robustnosti prevajanja med sodobnim in literarnim kitajščino.

Dongdong Zhang je izrazil: "Na podlagi sedanjega prevajalskega sistema bomo še naprej bogatili nabor podatkov in izboljšali metodo usposabljanja modela, da bo bolj robustna in vsestranska. V prihodnosti se metoda ne sme uporabljati le za literarno kitajsko prevajanje, temveč se lahko razširi tudi na druge scenarije uporabe.«.

Microsoftov prevajalec blog