Pereiti prie pagrindinio turinio
Vertėjas
Šis puslapis automatiškai išverstas į "Microsoft Translator" mašininio vertimo tarnybą. Sužinokite daugiau

Microsoft Translator Dienoraštis

"Microsoft Translator" išleidžia literatūros kinų vertimą

Skaitant Senovės Kinų poezija, mes dažnai stebina labai nuostabių žodžių senovės rašytojų galėtų naudoti apibūdinti žmones, įvykius, objektus ir scenas. Tai puikus kultūros lobis, kuris mums buvo paliktas nuošalyje. Tačiau, panašus į Šekspyro's eilutes anglų kalba, literatūros kinų naudojamas šių poetų dažnai sunku šiuolaikinių žmonių suprasti, ir reikšmių ir subtilybių, įdėtų į jį dažnai prarandama.  

Norėdami išspręsti šią problemą, "Microsoft Research Asia" mokslininkai priėmė naujausius neuroninio mašininio vertimo metodus, kad mokytų tiesioginio vertimo modelius tarp literatūrinės kinų ir šiuolaikinės kinų kalbos, o tai taip pat lemia vertimo galimybes tarp literatūros kinų ir daugiau kaip 90 kitų kalbų dialektus programoje "Microsoft Translator". Šiuo metu literatūros kinų vertimas buvo integruotas į "Microsoft Translator app, "Azure" kognityvinių paslaugų vertėjasir keletą "Microsoft" produktų, kuriuos palaiko "Microsoft Translator" tarnybos. 

Vaizdas: Paveikslas iš "Vakarų kalno ūkanotame lietuje" pagal Shen Zhou, Ming dinastija. Senovės kinų eilėraštis ant paveikslo yra iš Yong Liu, Šiaurės dainų dinastija. Eilėraštyje vaizduojamas pavasario peizažas pietų Kinijoje Čingmingo festivalio metu ir socialinio gyvenimo klestėjimas.

Galimybė daugiau žmonių įvertinti tradicinės kinų kultūros žavesį 

Literatūrinė kinų kalba yra svarbus tradicinės kinų kultūros nešėjas. Didelės apimties knygos ir tekstai iš seniausių laikų užfiksavo Kiniją's turtingą ir gilią kultūrą per pastaruosius penkis tūkstančius metų. Juose sukauptos ir esančios mintys ir išmintis yra vertos nuolatinio tyrinėjimo ir mąstymo.  

Mašininio vertimo pagalba turistai dabar gali suprasti senovės kinų tekstus ir eilėraščius, parašytus ant istorinių pastatų ir paminklų, studentai dabar turi papildomą įrankį, padedantį jiems išmokti kinų kalbą, o mokslininkai, užsiimantys senovinių tekstų lyginimą ir vertimą, gali būti produktyvesni.     

Dongdong Zhang, pagrindinis tyrėjas "Microsoft Research Asia", sakė: "Žvelgiant iš techninės perspektyvos, literatūrinė kinų kalba gali būti laikoma atskira kalba. Realizavus vertimą tarp literatūros kinų ir šiuolaikinės kinų kalbos, vertimas tarp literatūrinės kinų kalbos ir kitų kalbų, tokių kaip anglų, prancūzų ir vokiečių, tampa žinoma."  

Didžiausi literatūrinio kinų vertimo DI modelio sunkumai: mažai mokymo duomenų 

Svarbiausias DI modelio mokymo elementas yra duomenys. Tik tada, kai duomenų apimtis yra pakankamai didelė ir jos kokybė yra pakankamai aukšta Gali Jūs mokyti tikslesnį modelį. Mašininio vertimo atveju modelio mokymui reikalingi dvikalbiai duomenys: originalūs tekstiniai duomenys ir tikslinės kalbos duomenys. Literatūros kinų vertimas yra labai ypatingas, kaip ji"s ne kalba, vartojama kasdieniame gyvenime.  Todėl, palyginti su kitų kalbų vertimu, literatūrinio kinų vertimo mokymo duomenys yra labai maži, o tai nepadeda mokyti mašininio vertimo modelių.   

Nors "Microsoft Research Asia" tyrėjai ankstyvaisiais etapais surinko daug viešai prieinamų literatūros ir šiuolaikinių kinų duomenų, pradiniai duomenys negali būti tiesiogiai naudojami. Duomenų valymas turi būti atliekamas siekiant normalizuoti duomenis iš įvairių šaltinių, įvairių formatų, taip pat viso pločio /pusės pločio skyrybos ženklai, kaip priemonę sumažinti negaliojančių duomenų apie modelių mokymą trukdžius. Tokiu būdu toliau mažinami faktiniai turimi aukštos kokybės duomenys.  

Pasak Shuming Ma, "Microsoft Research Asia" mokslininko, siekiant sumažinti duomenų retumo problemą, mokslininkai atliko daug duomenų sintezės ir papildymo darbų, įskaitant: 

Pirma, bendras simbolis suderinimą ir išplėtimą, kad būtų padidintas mokymo duomenų dydis. Skiriasi nuo vertimai iš kinų kalbos į kitas kalbas, pvz., anglų, prancūzų, rusų ir kt., literatūrinę kinų ir šiuolaikinę kinų kalbą, naudoja tą patį simbolių rinkinį. Pasinaudodami šia funkcija, "Microsoft Research Asia" mokslininkai naudojo naujoviškus algoritmus, kad mašininis vertimas galėtų prisiminti įprastus simbolius, atlikti natūralų derinimą, o tada toliau plėstis į žodžius, frazes ir trumpus sakinius, taip sintezuojant didelį naudingų duomenų kiekį.  

Antra, deformuoti sakinio struktūrą, siekiant pagerinti mašininio vertimo tvirtumą. Dėl pertraukų tekstuose ir eilėraščiuose, mokslininkai pridėjo keletą variantų, kad mašinos būtų išsamesnės mokantis senovinių eilėraščių. Žmonėms, net jei jie mato sakinį, kuris yra struktūrizuotas neįprastai, pavyzdžiui, eilėraštį, suskirstytą į eilutes pagal ritmą, o ne pilnus sakinius, jie vis tiek gali sujungti dalis ir suprasti. Tačiau vertimo modeliui, kuris dar niekada nebuvo matęs tokio segmentavimo, jis greičiausiai bus supainiotas. Todėl duomenų formato transformacija gali ne tik padidinti mokymo duomenų kiekį, bet ir pagerinti vertimo modelio mokymo patikimumą.  

Trečia, vykdyti tradicinius ir supaprastintus charakterio vertimo mokymus, siekiant padidinti modelio pritaikomumą. Kinų kalba tradiciniai personažai egzistuoja tiek literatūrinėje, tiek šiuolaikinėje kinų kalba. Kai mokslininkai apmokė modelį, kad pagerintų modelio pritaikomumą, jie ne tik pasinaudojo duomenimis supaprastinta kinų kalba, bet ir pridėjo duomenis tradicine kinų kalba, taip pat duomenis, sumaišytus su tradiciniais ir supaprastintais simboliais. Taigi modelis gali suprasti tiek tradicinį, tiek supaprastintą turinį, o tai lemia tikslesnius vertimo rezultatus.   

Ketvirta, padidinkite užsienio kalbų žodžių mokymą, kad pagerintumėte vertimo tikslumą. Verčiant šiuolaikinę kinų kalbą į literatūrinę kinų kalbą, dažnai yra šiuolaikinių žodžių, kilusių iš užsienio kalbos žodžių ir naujų žodžių, kurie niekada nepasirodė senovės kinų kalba, pvz., "Microsoft", "kompiuteris", "greitasis geležinkelis" ir daugelis kitų. Norėdami išspręsti šią problemą, mokslininkai apmokė nedidelį modelį, kad atpažintų subjektus. Modelis pirmiausia išvertė žodžio reikšmę už objekto ribų, tada užpildė objektą atgal, kad užtikrintų mašinos tikslumą's svetimžodį.    

Vaizdas: TJis literatūros kinų vertimo procesas

Be to, neoficialių rašymo stilių, tokių kaip dienoraščiai, forumai, Weibo, ir tt, mašininio vertimo modelis buvo apmokyti specialiai toliau gerinti vertimo tvirtumą tarp šiuolaikinės ir literatūrinės kinų.  

Dongdong Zhang išreiškė: "Remiantis dabartine vertimo sistema, mes ir toliau praturtinsime duomenų rinkinį ir tobulinsime modelio mokymo metodą, kad jis taptų tvirtesnis ir universalesnis. Ateityje šis metodas gali būti naudojamas ne tik literatūros kinų kalbos vertimui, bet ir gali būti taikomas ir kitiems taikymo scenarijams."