Microsoft Translator annab välja kirjanduslikku hiinakeelset tõlget
Lugedes iidne Hiina luule, imetleme sageli väga imelisi sõnu, mida iidsed kirjanikud võiksid kasutada inimeste, sündmuste, objektide ja stseenide kirjeldamiseks. See on suurepärane kultuuriline aare, mis on meie jaoks maha jäetud. Kuid sarnaselt Shakespeare'iga's salmid inglise keeles, nende luuletajate kasutatav kirjanduslik hiina keel on tänapäeva inimestel sageli raske mõista ning selle tähendus ja nüansid on sageli kadunud.
Selle probleemi lahendamiseks võtsid Microsoft Research Asia teadlased kasutusele uusimad närviautomaatide tõlkimise tehnikad, et koolitada otseseid tõlkemudeleid kirjandusliku hiina ja kaasaegse hiina keele vahel, mille tulemuseks on ka tõlkevõimaluste loomine kirjandusliku hiina keele ja rohkem kui 90 muud keelt ja murretes Microsoft Translatoris. Praegu on kirjanduslik hiinakeelne tõlge integreeritud Tõlkija app, Azure'i kognitiivsete teenuste tõlkijaja mitmed Microsofti tooted, mida toetavad Microsoft Translatori teenused.
Pilt: Shen Zhou, Mingi dünastia maal "West Mountain in Misty Rain". Iidne hiina luuletus maalil on pärit Yong Liu, Põhjalaulu dünastia. Luuletus kujutab Qingming Festivali ajal Lõuna-Hiina kevadisi maastikke ja ühiskondliku elu õitsengut.
Võimaldada rohkematel inimestel hinnata traditsioonilise Hiina kultuuri võlu
Kirjanduslik hiina keel on traditsioonilise Hiina kultuuri oluline kandja. Mahukad raamatud ja tekstid iidsetest aegadest on salvestanud Hiina'rikkalikku ja sügavat kultuuri viimase viie tuhande aasta jooksul. Neis kogunenud ja sisalduvad mõtted ja tarkus väärivad pidevat uurimist ja mõtlemist.
Masintõlke abil saavad turistid nüüd aru iidsetest hiinakeelsetest tekstidest ja luuletustest, mis on kirjutatud ajaloolistele hoonetele ja monumentidele, õpilastel on nüüd täiendav vahend, mis aitab neil hiina keelt õppida, ja teadlased, kes tegelevad iidsete tekstide võrdlemise ja tõlkimisega, võivad olla produktiivsemad.
Dongdong Zhang, peamine teadlane Microsoft Research Asia ütles: "Tehnilisest vaatenurgast võib kirjanduslikku hiina keelt pidada eraldi keeleks. Kui tõlge kirjandusliku hiina ja kaasaegse hiina keele vahel on realiseeritud, muutub kirjandusliku hiina keele ja teiste keelte, näiteks inglise, prantsuse ja saksa keele vaheline tõlge loomulikult küsimuseks."
Kirjandusliku hiina keele tõlke tehisintellekti mudeli suurim raskusaste: vähe koolitusandmeid
Tehisintellekti mudelikoolituse kõige kriitilisem element on andmed. Ainult siis, kui andmemaht on piisavalt suur ja kvaliteet piisavalt kõrge Võib Te koolitada täpsem mudel. Masintõlke puhul nõuab mudeli koolitus kakskeelseid andmeid: originaalteksti andmeid ja sihtkeele andmeid. Kirjandusliku hiina keele tõlge on väga eriline, nagu see on"see ei ole keel, mida kasutatakse igapäevaelus. Seetõttu on võrreldes teiste keelte tõlkimisega kirjandusliku hiina keele koolitusandmed väga väikesed, mis ei soodusta masintõlkemudelite koolitust.
Kuigi Microsoft Research Asia teadlased kogusid varases staadiumis palju avalikult kättesaadavaid kirjanduslikke ja kaasaegseid Hiina andmeid, ei saa originaalandmeid otseselt kasutada. Andmete puhastamine tuleb läbi viia, et normaliseerida andmeid erinevatest allikatest, erinevatest vormingutest, samuti täislaiusest/poollaiusega kirjavahemärgid, vahendina, mille abil minimeerida mudelikoolituse kehtetute andmete sekkumist. Sel viisil vähendatakse veelgi tegelikke kättesaadavaid kvaliteetseid andmeid.
Microsoft Research Asia teadlase Shuming Ma sõnul on teadlased andmete hõrenemise probleemi vähendamiseks teinud palju andmete sünteesi ja täiendamise tööd, sealhulgas:
Esiteks, ühine iseloom– põhine ühtlustamine ja laiendamine, et suurendada koolitusandmete mahtu. Erineb tõlked hiina ja teiste keelte vahel, nagu inglise, prantsuse, vene jne, kirjanduslik hiina ja kaasaegne hiina kasutavad sama märgistiku. Seda funktsiooni ära kasutades on Microsoft Research Asia teadlased kasutanud uuenduslikke algoritme, et võimaldada masintõlkel meenutada tavalisi märke, viia läbi loomulik joondamine ja seejärel laiendada seda sõnadele, fraasidele ja lühikestele lausetele, sünteesides seeläbi suure hulga kasutatavaid andmeid.
Teiseks deformeerub lausestruktuur, et parandada masintõlke töökindlust. Seoses tekstide ja luuletuste pausid, teadlased on lisanud mitmeid variante, et muuta masinad iidsete luuletuste õppimisel terviklikumaks. Inimeste jaoks, isegi kui nad näevad lauset, mis on üles ehitatud ebanormaalselt, näiteks luuletus, mis on segmenteeritud ridadesse, mis põhinevad rütmil, mitte täislausetel, saavad nad siiski osad kokku panna ja sellest aru saada. Kuid tõlkemudeli puhul, mis pole kunagi varem sellist segmenteerimist näinud, on see tõenäoliselt segaduses. Seetõttu ei saa andmevormingu muutmine mitte ainult suurendada koolitusandmete hulka, vaid parandada ka tõlkemudeli koolituse usaldusväärsust.
Kolmandaks viige läbi traditsiooniline ja lihtsustatud iseloomu tõlkimise koolitus, et suurendada mudeli kohandatavust. Hiina keeles on traditsioonilised tegelased olemas nii kirjanduslikus kui ka kaasaegses hiina keeles. Kui teadlased koolitasid mudelit, et parandada mudeli kohanemisvõimet, ei võimendanud nad mitte ainult lihtsustatud hiina keelsete andmete, vaid ka traditsiooniliste hiina keele andmete, samuti traditsiooniliste ja lihtsustatud tähemärkidega segatud andmeid. Seega saab mudel mõista nii traditsioonilist kui ka lihtsustatud sisu, mis toob kaasa täpsemad tõlketulemused.
Neljandaks suurendage võõrkeelsete sõnade koolitust, et parandada tõlkimise täpsust. Kaasaegse hiina keele tõlkimisel kirjanduslikku hiina keelde on sageli kaasaegseid sõnu, mis on tuletatud võõrkeelsetest sõnadest ja uutest sõnadest, mis ei ole kunagi ilmunud iidses hiina keeles, nagu "Microsoft", "arvuti", "kiirraudtee" ja paljud teised sellised. Selle probleemi lahendamiseks koolitasid teadlased üksuste äratundmiseks väikese mudeli. Mudel tõlkis kõigepealt sõna tähenduse väljaspool olemit, seejärel täitis olemi tagasi, et tagada masina täpsus.'võõrsõnade töötlemine.
Pilt: TTa kirjandus hiina tõlkeprotsess
Lisaks on mitteametlike kirjutamisstiilide puhul, nagu blogid, foorumid, Weibo jne, koolitatud masintõlkemudelit spetsiaalselt selleks, et veelgi parandada kaasaegse ja kirjandusliku hiina keele vahelise tõlkimise usaldusväärsust.
Dongdong Zhang väljendas: "Praeguse tõlkesüsteemi alusel rikastame jätkuvalt andmekogumit ja täiustame mudelkoolitusmeetodit, et muuta see töökindlamaks ja mitmekülgsemaks. Tulevikus võib meetodit kasutada mitte ainult hiina keele kirjanduslikuks tõlkimiseks, vaid seda saab laiendada ka teistele rakendusstsenaariumidele."