A Microsoft Translator kiadja a műfordítást

Kifüggesztett 2021. augusztus 25.2021. augusztus 30.mellett Microsoft Translator

Olvasás közben ősi kínai költészet, gyakran rácsodálkozunk a nagyon csodálatos szavakat ősi írók lehetne használni, hogy leírja az emberek, események, tárgyak, és jelenetek. Ez egy csodálatos kulturális kincs, amelyet hátrahagytak számunkra. Shakespeare-hez hasonlóan azonban's versek az angol nyelv, az irodalmi kínai által használt költők gyakran nehéz a mai emberek megérteni, és a jelentései és finomságai ágyazott benne gyakran elveszett.

Ennek a problémának a megoldására a Microsoft Research Asia kutatói elfogadták a legújabb neurális gépi fordítási technikákat, hogy közvetlen fordítási modelleket képezzenek az irodalmi kínai és a modern kínai között, ami szintén fordítási képességeket eredményez az irodalmi kínai és a több mint 90 más nyelv és nyelvjárások a Microsoft Translatorben. Jelenleg a műfordítást integrálták a Microsoft Translator app, Az Azure Cognitive Services fordítója, valamint számos Microsoft-termék, amelyet a Microsoft Translator szolgáltatásai támogatnak.

Kép: A festmény a "West Mountain a Ködös Eső" a Shen Zhou, Ming-dinasztia. Az ősi kínai vers a festményen Yong Liu, Északi Dal Dinasztia. A vers a dél-kínai tavaszi tájat ábrázolja a Csingming Fesztivál alatt és a társadalmi élet jólétét.

Lehetővé teszi, hogy több ember értékelje a hagyományos kínai kultúra varázsát

Az irodalmi kínai a hagyományos kínai kultúra fontos hordozója. Terjedelmes könyvek és szövegek az ókorból feljegyezték Kínát'gazdag és mély kultúrát az elmúlt ötezer évben. A bennük felhalmozott és benne lévő gondolatok és bölcsességek méltók a folyamatos feltárásra és gondolkodásra.

A gépi fordítás segítségével a turisták már megérthetik a történelmi épületekre és műemlékekre írt ősi kínai szövegeket és verseket, a diákok most egy extra eszközzel segíthetik őket a kínai tanulásban, és az ősi szövegek összegyűjtésével és fordításával foglalkozó kutatók hatékonyabbak lehetnek.

Dongdong Zhang, a Microsoft Research Asia vezető kutatója azt mondta: "Technikai szempontból az irodalmi kínai külön nyelvnek tekinthető. Amint megvalósul a fordítás az irodalmi kínai és a modern kínai között, az irodalmi kínai és más nyelvek, például az angol, a francia és a német közötti fordítás természetesen kérdéssé válik."

A műkületi kínai fordítás legnagyobb nehézsége AI modell: Kevés képzési adat

A mi-modellképzés legkritikusabb eleme az adat. Csak akkor, ha az adatmennyiség elég nagy és a minősége elég magas Cna ön pontosabb modellt kell betanítottanunk. A gépi fordításban a modell képzése kétnyelvű adatokat igényel: eredeti szöveges adatokat és célnyelvi adatokat. Az irodalmi kínai fordítása nagyon különleges, mivel"s nem a mindennapi életben használt nyelv. Ezért más nyelvek fordításával összehasonlítva a műfordítás képzési adatai nagyon kicsik, ami nem segíti elő a gépi fordítási modellek képzését.

Bár a Microsoft Research Asia kutatói sok nyilvánosan elérhető irodalmi és modern kínai adatot gyűjtöttek a korai szakaszban, az eredeti adatok közvetlenül nem használhatók fel. Az adattisztítást a különböző forrásokból, különböző formátumokból, valamint teljes szélességből/félszélességű írásjelek, az érvénytelen adatoknak a modellképzésbe való beavatkozásának minimalizálása érdekében. Ily módon a rendelkezésre álló kiváló minőségű adatok tovább csökkennek.

Shuming Ma, a Microsoft Research Asia kutatója szerint az adatok ritkaságának csökkentése érdekében a kutatók nagy mennyiségű adatszintézisi és augmentációs munkát végeztek, többek között:

Először is, közös karakter– a képzési adatok méretének növelése érdekében történő igazítás és bővítés. Különbözik a fordítások között a kínai és más nyelvek, mint például az angol, francia, orosz, stb, irodalmi kínai és a modern kínai használja ugyanazt a karakterkészletet. Kihasználva ezt a funkciót, a Microsoft Research Asia kutatói innovatív algoritmusokat használtak, hogy lehetővé tegyék a gépi fordítást a közös karakterek felidézésére, a természetes igazítás elvégzésére, majd tovább bővítsék a szavakat, kifejezéseket és rövid mondatokat, ezáltal nagy mennyiségű használható adatot szintetizálva.

Másodszor, deformálják a mondatszerkezetet, hogy javítsák a gépi fordítás robusztusságát. Illetőleg szünetek szövegek és versek, a kutatók hozzá számos változatot, hogy a gépek átfogóbb tanulás ősi versek. Az emberek számára, még akkor is, ha egy abnormálisan strukturált mondatot látnak, például egy verset, amelyet a teljes mondatok helyett ritmus alapján sorokra szegmentáltak, még mindig összerakhatják és megérthetik a részeket. De egy olyan fordítási modell esetében, amely még soha nem látott ilyen szegmentációt, valószínűleg összekeveredik. Ezért az adatformátum átalakítása nemcsak a képzési adatok mennyiségét bővítheti, hanem javíthatja a fordítási modell képzésének robusztusságát is.

Harmadszor, végezzen hagyományos és egyszerűsített karakterfordító képzést a modell alkalmazkodóképességének növelése érdekében. A kínai, a hagyományos karakterek léteznek mind az irodalmi és a modern kínai. Amikor a kutatók kiképezték a modellt, a modell alkalmazkodóképességének javítása érdekében nemcsak egyszerűsített kínai adatokkal, hanem hagyományos kínai adatokkal, valamint hagyományos és egyszerűsített karakterekkel kevert adatokkal is növelték az adatokat. Így a modell megérti mind a hagyományos, mind az egyszerűsített tartalmat, ami pontosabb fordítási eredményekhez vezet.

Negyedszer, az idegen nyelvű szavak képzésének növelése a fordítás pontosságának javítása érdekében. Amikor a modern kínait irodalmi kínaivá fordítják, gyakran vannak olyan modern szavak, amelyek idegen nyelvű szavakból és új szavakból származnak, amelyek soha nem jelentek meg az ősi kínaiakban, mint például a "Microsoft", a "számítógép", a "nagysebességű vasút", és sokan mások szeretik. Ennek a kérdésnek a kezelésére a kutatók egy kis modellt képeztek ki az entitások felismerésére. A modell először lefordította a szó jelentését az entitáson kívül, majd kitöltötte az entitást, hogy biztosítsa a gép pontosságát's az idegen szavak feldolgozása.

Kép: TŐ irodalmi kínai fordítási folyamat

Ezen túlmenően, az informális írás stílusok, mint a blogok, fórumok, Weibo, és így tovább, a gépi fordítási modell már képzett kifejezetten, hogy tovább javítsa a robusztus fordítás között a modern és irodalmi kínai.

Dongdong Zhang kifejtette: "A jelenlegi fordítási rendszer alapján továbbra is gazdagítjuk az adatkészletet, és javítjuk a modellképzési módszert, hogy robusztusabbá és sokoldalúbbá tegyük. A jövőben a módszer nemcsak irodalmi kínai fordításra használható, hanem más alkalmazási forgatókönyvekre is kiterjeszthető."

Mikroszkóp fordító blog