Microsoft Translator izdod literāro tulkojumu ķīniešu valodā

Ievietots 2021. gada 25. augusts2021. gada 30. augustspa Microsoft Translator

Lasot Seno Ķīniešu dzeju, mēs bieži brīnāmies par ļoti brīnišķīgajiem vārdiem, ko senie rakstnieki varētu izmantot, lai aprakstītu cilvēkus, notikumus, objektus un ainas. Tas ir lielisks kultūras dārgums, kas mums ir atstāts novārtā. Tomēr līdzīgi kā Šekspīrs's panti angļu valodā, literārie ķīnieši, ko izmanto šie dzejnieki, bieži vien ir grūti saprast mūsdienu cilvēkiem, un tajā iestrādātās nozīmes un smalkumi bieži tiek zaudēti.

Lai atrisinātu šo problēmu, Microsoft Research Asia pētnieki pieņēma jaunākās neironu mašīntulkošanas metodes, lai apmācītu tiešās tulkošanas modeļus starp literāro ķīniešu un mūsdienu ķīniešu valodu, kā rezultātā tiek radītas arī tulkošanas iespējas starp literāro ķīniešu un vairāk nekā 90 citās valodās un dialekti programmā Microsoft Translator. Pašlaik literārais ķīniešu tulkojums ir integrēts Microsoft Translator app, Azure kognitīvo pakalpojumu tulkotājsun vairāki Microsoft produkti, kurus atbalsta Microsoft Translator pakalpojumi.

Attēls: Shen Zhou glezna "West Mountain in Misty Rain", Ming Dynasty. Seno ķīniešu dzejolis par gleznu ir no Yong Liu, Ziemeļu dziesmu dinastija. Dzejolī attēlotas pavasara ainavas Ķīnas dienvidos Cjiņminga festivāla laikā un sabiedriskās dzīves labklājība.

Iespēja lielākam cilvēku skaitam novērtēt tradicionālās ķīniešu kultūras šarmu

Literārā ķīniešu valoda ir svarīgs tradicionālās ķīniešu kultūras nesējs. Apjomīgās grāmatas un teksti no seniem laikiem ir ierakstījuši Ķīnu'bagāta un dziļa kultūra pēdējo piecu tūkstošu gadu laikā. Tajās uzkrātās un ietvertās domas un gudrība ir nepārtrauktas izpētes un domāšanas vērtas.

Ar mašīntulkošanas palīdzību tūristi tagad var saprast senos ķīniešu tekstus un dzejoļus, kas rakstīti uz vēsturiskām ēkām un pieminekļiem, studentiem tagad ir papildu rīks, lai palīdzētu viņiem apgūt ķīniešu valodu, un pētnieki, kas nodarbojas ar seno tekstu apkopošanu un tulkošanu, var būt produktīvāki.

Dongdong Zhang, Microsoft Research Asia galvenais pētnieks, teica: "No tehniskā viedokļa literāro ķīniešu valodu var uzskatīt par atsevišķu valodu. Kad tulkojums starp literāro ķīniešu un mūsdienu ķīniešu valodu ir realizēts, tulkojums starp literāro ķīniešu un citām valodām, piemēram, angļu, franču un vācu, protams, kļūst par jautājumu."

Lielākās grūtības ar literāro tulkojumu AI modelis: Maz mācību datu

Viskritiskākais AI modeļu apmācības elements ir dati. Tikai tad, ja datu apjoms ir pietiekami liels un tā kvalitāte ir pietiekami augsta Cna Jūs apmācīt precīzāku modeli. Mašīntulkošanā modeļa apmācībai ir nepieciešami divvalodu dati: oriģināli teksta dati un mērķa valodas dati. Literārās ķīniešu valodas tulkojums ir ļoti īpašs, kā tas"nav valoda, ko lieto ikdienas dzīvē. Tāpēc, salīdzinot ar citu valodu tulkošanu, literārās ķīniešu valodas tulkošanas apmācības dati ir ļoti mazi, kas neveicina mašīntulkošanas modeļu apmācību.

Lai gan Microsoft Research Asia pētnieki agrīnā stadijā apkopoja daudz publiski pieejamu literāro un mūsdienu Ķīnas datu, sākotnējos datus nevar tieši izmantot. Datu tīrīšana jāveic, lai normalizētu datus no dažādiem avotiem, dažādiem formātiem, kā arī pilna platuma/pusplatuma pieturzīmes, lai samazinātu nederīgu datu iejaukšanos modeļu apmācībā. Tādējādi faktiski pieejamie augstas kvalitātes dati tiek vēl vairāk samazināti.

Saskaņā ar Shuming Ma, Microsoft Research Asia pētnieku, lai samazinātu datu smērviekla problēmu, pētnieki ir veikuši lielu datu sintēzes un palielināšanas darbu, tostarp:

Pirmkārt, parastais raksturs– pamatojoties uz saskaņošanu un paplašināšanu, lai palielinātu apmācības datu apjomu. Atšķiras no tulkojumos starp ķīniešu un citām valodām, piemēram, angļu, franču, krievu uc, literāro ķīniešu un mūsdienu ķīniešu, tiek izmantota viena un tā pati rakstzīmju kopa. Izmantojot šo funkciju, Microsoft Research Asia pētnieki ir izmantojuši inovatīvus algoritmus, lai mašīntulkošana ļautu atcerēties parastās rakstzīmes, veikt dabisko izlīdzināšanu un pēc tam paplašināties līdz vārdiem, frāzēm un īsiem teikumiem, tādējādi sintezējot lielu daudzumu izmantojamu datu.

Otrkārt, deformēt teikuma struktūru, lai uzlabotu mašīntulkošanas robustumu. Attiecībā uz laužot tekstus un dzejoļus, pētnieki ir pievienojuši vairākus variantus, lai padarītu mašīnas visaptverošākas seno dzejoļu apguvē. Cilvēkiem, pat ja viņi redz teikumu, kas ir nenormāli strukturēts, piemēram, dzejoli, kas segmentēts rindās, pamatojoties uz ritmu, nevis pilniem teikumiem, viņi joprojām var salikt daļas kopā un saprast to. Bet tulkošanas modelim, kas nekad iepriekš nav redzējis šādu segmentāciju, tas, visticamāk, tiks sajaukts. Tāpēc datu formāta pārveidošana var ne tikai paplašināt mācību datu apjomu, bet arī uzlabot tulkošanas modeļa apmācības stabilitāti.

Treškārt, veikt tradicionālas un vienkāršotas rakstura tulkošanas mācības, lai palielinātu modeļa pielāgojamību. Ķīniešu valodā tradicionālie rakstzīmes pastāv gan literārajā, gan mūsdienu ķīniešu valodā. Kad pētnieki apmācīja modeli, lai uzlabotu modeļa pielāgojamību, viņi ne tikai izmantoja datus vienkāršotajā ķīniešu valodā, bet arī pievienoja datus tradicionālajā ķīniešu valodā, kā arī datus, kas sajaukti ar tradicionālajām un vienkāršotajām rakstzīmēm. Tādējādi modelis var saprast gan tradicionālo, gan vienkāršoto saturu, kas noved pie precīzākiem tulkošanas rezultātiem.

Ceturtkārt, palielināt svešvalodu vārdu apmācību, lai uzlabotu tulkošanas precizitāti. Tulkojot mūsdienu ķīniešu valodu literārajā ķīniešu valodā, bieži vien ir mūsdienu vārdi, kas atvasināti no svešvalodu vārdiem un jauniem vārdiem, kas nekad nav parādījušies senajā ķīniešu valodā, piemēram, "Microsoft", "dators", "ātrgaitas dzelzceļš" un daudzi citi patīk. Lai risinātu šo jautājumu, pētnieki apmācīja nelielu modeli, lai atpazītu vienības. Modelis vispirms tulkoja vārda nozīmi ārpus entītijas, pēc tam aizpildīja entītiju atpakaļ, lai nodrošinātu mašīnas precizitāti.'s svešvārdu apstrādi.

Attēls: TViņš literārā ķīniešu valoda tulkošanas process

Turklāt neformāliem rakstīšanas stiliem, piemēram, emuāriem, forumiem, Weibo utt., Mašīntulkošanas modelis ir īpaši apmācīts, lai vēl vairāk uzlabotu tulkošanas robustumu starp moderno un literāro ķīniešu valodu.

Dongdong Zhang pauda: "Pamatojoties uz pašreizējo tulkošanas sistēmu, mēs turpināsim bagātināt datu kopu un uzlabot modeļa apmācības metodi, lai padarītu to robustāku un daudzpusīgāku. Nākotnē šo metodi var izmantot ne tikai literārai ķīniešu tulkošanai, bet to var attiecināt arī uz citiem lietojumprogrammu scenārijiem."

Microsoft Translator blog