Preskoči na glavno vsebino
Prevajalec
Ta stran je bila samodejno prevedena s strojno prevajanje Microsoft Translator storitev. Preberite več

Microsoftov prevajalec blog

Nevronske strojno prevajanje omogočanje človeške paritete inovacije v oblaku

Marca 2018 smo Napovedal (Hassan et al. 2018) preboj rezultat, kjer smo prvič pokazali sistem strojno prevajanje, ki bi lahko izvajali, kot tudi človeške prevajalce (v posebnem scenariju-kitajsko-angleški prevod novic). To je bil razburljiv preboj v raziskave strojno prevajanje, vendar pa sistem, ki smo zgradili za ta projekt je bil zapleten, težji raziskovalni sistem, ki vključuje več vrhunskih tehnik. Medtem ko smo izdali izhod tega sistema na več preskusnih sklopov, sistem sam ni bil primeren za uvajanje v realnem času strojno prevajanje oblak API.

Danes smo navdušeni, da razglasi razpoložljivost v proizvodnji naše najnovejše generacije nevronskih strojno prevajanje modelov. Ti modeli vključujejo večino dobrote našega raziskovalnega sistema in so zdaj na voljo privzeto, ko uporabljate Microsoft Translator API. Ti novi modeli so danes na voljo v kitajščini, nemščini, francoščini, hindi, italijanščini, španščini, japonščini, korejščini in ruščini, iz in v angleščino. Kmalu bo več jezikov.

Pridobivanje iz raziskovalnega papirja v oblak API

V preteklem letu, smo iskali načine, da bi veliko kakovosti našega človeškega paritete sistema v Microsoft Translator API, hkrati pa še naprej ponujajo poceni prevajanje v realnem času. Tukaj je nekaj korakov na tem potovanju.

Učitelj-študent usposabljanje

Naš prvi korak je bil, da preklopite na "učitelj-študent" okvir, kjer smo vlak lahek študent v realnem času za posnemanje težji učiteljev Network (Ba in Caruana 2014). To se doseže z usposabljanjem študent ne na vzporednih podatkov, da MT sistemi so običajno usposobljeni, ampak na prevode, ki jih je pripravil učitelj (Kim in Rush 2016). To je preprostejša naloga kot učenje iz neobdelanih podatkov, in omogoča plitko, preprostejše študent, da zelo pozorno slediti zapleten učitelj. Kot bi lahko pričakovali, naši začetni poskusi še vedno utrpela kakovost kapljic od učitelja do študenta (brez kosila!), vendar smo kljub temu je prvo mesto v WNMT 2018 deljeno nalogo o učinkovitem dekodiranje (Junczys-Dowmunt et al. 2018a). Nekatere posebej zanimive rezultate teh prizadevanj je bilo, da transformator (Vaswani et al. 2017) modeli in njihove spremembe dobro igrajo z usposabljanjem učiteljev in študentov in so presenetljivo učinkoviti med sklepanja o CPU.

Učenje iz teh začetnih rezultatov in po veliko iteracije smo odkrili recept, ki omogoča našim preprostim študentom, da so skoraj enake kakovosti kot zapleten učitelj (včasih je brezplačno kosilo navsezadnje?). Zdaj smo bili svobodni za izgradnjo velikih, kompleksnih modelov učiteljev za povečanje kakovosti, brez skrbi v realnem času omejitve (preveč).

Prevajanje v realnem času

Naša odločitev o prehodu na okvir učitelja-študenta je bila motivirana z velikim delom Kim in Rush (2016) za preproste modele, ki temeljijo na RNN. Na tej točki ni bilo jasno, ali bi prijavljene koristi očitno tudi za modele transformatorjev (glej Vaswani et al. 2017 podrobnosti o tem modelu). Vendar pa smo hitro ugotovili, da je to res tako.

Transformator študent lahko uporabite zelo poenostavljeno dekodiranje algoritem (pohlepno iskanje), kjer smo pravkar izbrali eno najbolje prevedeno besedo na vsakem koraku, namesto običajne metode (Beam-iskanje), ki vključuje iskanje skozi ogromen prostor možnih Prevodi. Ta sprememba je imela minimalen vpliv na kakovost, vendar je privedla do velikih izboljšav v hitrosti prevajanja. Nasprotno pa bi model učitelja utrpel znatno zmanjšanje kakovosti pri prehodu iz žarek-Search za pohlepno iskanje.

Ob istem času, smo spoznali, da namesto z uporabo najnovejših nevronske arhitekture (transformator z self-pozornost) v dekoder, študent se lahko spremeni za uporabo drastično poenostavljeno in hitrejše ponavljajoče (RNN) arhitekture. To je pomembno zato, ker medtem ko se lahko kodirnik transformator se izračuna v celotnem stavku stavek vzporedno, ciljni stavek je ustvarila eno besedo naenkrat, tako da hitrost dekoderja ima velik vpliv na skupno hitrost prevajanja. V primerjavi z self-pozornost, ponavljajoči dekoder zmanjšuje algoritemsko kompleksnost od kvadratičnega do linearnega v ciljni stavek dolžine. Še posebej v učitelju-študent nastavitev, smo videli nobene izgube kakovosti zaradi teh sprememb, niti za avtomatsko niti za človeške rezultate ocenjevanja. Več dodatnih izboljšav, kot je delitev parametrov, je privedlo do nadaljnjega zmanjšanja kompleksnosti in povečane hitrosti.

Druga prednost učitelja-študent okvir smo bili zelo navdušeni, da vidim, da je kakovost izboljšav v daljšem časovnem obdobju vedno večje in spreminjajoče se učitelji zlahka prenesejo na non-spreminjajoče se študent arhitekture. V primerih, ko smo v zvezi s tem videli težave, bi rahlo povečanje zmogljivosti študentskega modela zapolnili vrzel.

Dvojno učenje

Ključni vpogled v ozadju dvojnega učenja (On et al. 2016) je "okrogel-potovanje prevod" ček to narod včasih raba v ček prevod odličnost. Recimo, da uporabljate spletni prevajalec, da gredo iz angleščine v italijansko. Če ne beremo italijanščine, kako vemo, če je dobro opravljeno? Pred klikom Pošlji na e-poštnem sporočilu se lahko odločite za preverjanje kakovosti s prevajanjem italijanskega nazaj v angleščino (morda na drugi spletni strani). Če je angleščina smo dobili nazaj je Zalutao predaleč od prvotnega, možnosti so eden od prevodov šel off tirnice.

Dvojno učenje uporablja enak pristop za usposabljanje dveh sistemov (npr. angleško-> italijansko in italijansko-> angleščina) vzporedno, z uporabo kroga-potovanje prevod iz enega sistema na rezultat, potrjevanje in vlak drugi sistem.

Dvojno učenje je bil pomemben dejavnik za naše človeške paritete rezultatov raziskav. V tekoč s raziskovalni sistem za naše proizvodnje recept, smo posplošiti ta pristop na splošno. Ne samo, da smo co-vlak parov sistemov na izhod drug drugega, smo uporabili tudi isto merilo za filtriranje naših vzporednih podatkov.

Čiščenje netočnih podatkov

Strojno prevajanje sistemi so usposobljeni za "vzporedne podatke", tj parov dokumentov, ki so prevodi med seboj, v najboljšem primeru ustvaril človeški prevajalec. Kot se izkaže, so ti vzporedni podatki pogosto polni netočnih prevodov. Včasih dokumenti niso resnično vzporedni, ampak le ohlapno parafrazira med seboj. Človeški prevajalci se lahko odločijo, da zapustijo nekaj izvornega materiala ali vstavite dodatne informacije. Podatki lahko vsebujejo tipkarske napake, črkovanje napak, slovnične napake. Včasih naše podatke rudarski algoritmi so bedastoča s podobnimi, vendar ne-vzporedni podatki, ali celo z stavki v napačnem jeziku. Najslabše od vsega, veliko spletnih strani vidimo, so spam, ali lahko v resnici strojno prevajanje namesto človeških prevodov. Nevronski sistemi so zelo občutljivi na tovrstno netočnost podatkov. Ugotovili smo, da je gradnja nevronskih modelov za samodejno prepoznavanje in se znebite teh nepravilnosti je močno izboljšanje kakovosti naših sistemov. Naš pristop k filtriranju podatkov je nastal na prvem mestu v WMT18 vzporedni korpus filtriranje Benchmark (Junczys-Dowmunt 2018a) in pomagal zgraditi enega najmočnejših angleško-nemških prevajalskih sistemov v WMT18 novice prevod opravilo (Junczys-Dowmunt 2018b). Uporabili smo izboljšane različice tega pristopa v proizvodnih sistemih, ki smo jih danes izdali.

Factored izraziti z besedami predstavništev

Pri premikanju raziskovalne tehnologije v proizvodnjo se pojavljajo številni izzivi v realnem svetu. Getting številke, datumi, časi, velike začetnice, razmik, itd desno zadeve veliko več v proizvodnji kot v raziskovalni sistem.

Razmislite izziv kapitalizacije. Če smo prevajanje stavek "WATCH CAT video tukaj". Vemo, kako prevesti "mačka". Mi bi želeli prevesti "CAT" na enak način. Ampak zdaj menijo, "Watch US Soccer tukaj". Ne želimo, da zmedejo besedo "nas" in kratica "ZDA" v tem kontekstu.

Za obravnavo tega, smo uporabili pristop znan kot upoštevati strojno prevajanje (Koehn in Hoang 2007Sennrich in Haddow 2016), ki deluje na naslednji način. Namesto enotne številčne predstavitve (» vdelava «) za» Cat «ali» CAT «uporabljamo več embeddings, znanih kot» faktorji «. V tem primeru bi bila primarna vdelava enaka za "CAT" in "mačka", vendar bi ločen faktor predstavljal kapitalizacijo, ki kaže, da je vse-kape v enem primeru, ampak male črke v drugi. Podobni dejavniki se uporabljajo na viru in ciljni strani.

Podobne dejavnike uporabljamo za obdelavo besednih fragmentov in razmika med besedami (kompleksno vprašanje v jezikih, ki ne razmika ali semi-razmik, kot so kitajščina, korejščina, japonščina ali tajščina).

Dejavniki tudi dramatično izboljšalo prevajanje številk, kar je kritično v mnogih scenarijih. Prevajanje števil je večinoma algoritemska transformacija. Na primer, 1.234.000 lahko zapišemo kot 12, 34000 v hindi, 1.234.000 v nemščini, in 123,4 万 v kitajščini. Tradicionalno so številke zastopane kot besede, kot skupine znakov različnih dolžine. To je težko za strojno učenje, da odkrijete algoritem. Namesto tega hranimo vsako posamezno števko števila posebej, z dejavniki, ki označujejo začetek in konec. Ta preprost trik robustno in zanesljivo odstranili skoraj vse napake pri prevajanju številk.

Hitrejši model usposabljanja

Ko smo usposabljanje enoten sistem za en sam cilj, kot smo naredili za Human-parity raziskovalni projekt, pričakujemo, da bo vrgel veliko število strojne opreme pri modelih, ki traja tedne za vlak. Pri usposabljanju proizvodnih modelov za 20 + jezikovnih parov, ta pristop postane netenable. Ne samo, da potrebujemo razumno Turn-okoli krat, vendar moramo tudi zmerno naše strojne zahteve. Za ta projekt smo naredili številne izboljšave uspešnosti za Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT je odprtokodni Neural MT Toolkit, da Microsoft Translator temelji na. Marian je čista C++ nevronske strojno prevajanje orodje, in, kot rezultat, zelo učinkovit, ne zahteva GPUs na runtime, in zelo učinkovito pri usposabljanju čas

Zaradi svoje lastne narave, je zelo enostaven za optimizacijo Marian za posebne naloge NMT, ki ima za posledico enega od najbolj učinkovitih NMT orodij na voljo. Oglejte si Merila. Če ste zainteresirani za nevronske MT raziskave in razvoj, prosim pridružite in prispevati k Skupnosti na GitHub.

Naše izboljšave v zvezi z mešano-precizno usposabljanje in dekodiranje, kot tudi za velik model usposabljanja bo kmalu na voljo v javnem skladišču GitHub.

Mi smo navdušeni nad prihodnostjo nevronske strojno prevajanje. Novi model arhitekture bomo še naprej izkotaliti v preostale jezike in Prevajalec po meri v tem letu. Naši uporabniki bodo samodejno dobili bistveno boljše kakovostne prevode prek Translator APINaše Translator app, Microsoft Office in rob brskalnika. Upamo, da bodo nove izboljšave pomagale vašemu osebnem in profesionalnemu življenju ter se veseliti vaših povratnih informacij.

 

Sklicevanja

  • Jimmy ba in Rich Caruana. 2014. ali Deep Nets res treba Deep? Napredek v nevronskih informacijskih sistemov za obdelavo 27. Strani 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
  • Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu Li, Shujie Liu, tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, FEI Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. doseganje človekove paritete na avtomatsko Kitajsko, da angleško prevajanje novic. http://arxiv.org/abs/1803.05567
  • On, di in Xia, Yingce in Qin, Tao in Wang, Liwei in Yu, Nenghai in Liu, tie-Yan in MA, Wei-Ying. 2016. dvojno učenje za strojno prevajanje. Napredek v nevronskih informacijskih sistemov za obdelavo 29. Strani 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
  • Marcin Junczys-Dowmunt. 2018a. Dual pogojno navzkrižno entropija filtriranje hrupnih vzporednih corpora. Postopek tretje konference o strojno prevajanje: dokumenti v skupni rabi. Belgija, strani 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
  • Marcin Junczys-Dowmunt. 2018b. Microsoft ' s predložitev WMT2018 novice prevod penzum: kako sem se naučila stop zaskrbljujoče in ljubezen Data. Postopek tretje konference o strojno prevajanje: dokumenti v skupni rabi. Belgija, strani 425-430. https://www.aclweb.org/anthology/W18-6415/
  • Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, roman Grundkiewicz, Anthony Aue. 2018a. Marian: stroškovno učinkovito visoke kakovosti nevronske strojno prevajanje v c + +. Postopek 2. delavnica o nevronskih strojno prevajanje in generacija. Melbourne, Avstralija, strani 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
  • Marcin Junczys-Dowmunt, roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: Fast nevronske strojno prevajanje v c + +. Postopki ACL 2018, System demonstracije. Melbourne, Avstralija, strani 116-121. https://www.aclweb.org/anthology/P18-4020/
  • Yoon Kim in Alexander M. Rush. 2016. destilacija znanja na ravni zaporedja. V postopku 2016 konferenca o empiričnih metodah v obdelavi naravnih jezikov, EMNLP 2016, Austin, Texas, ZDA, november 1-4, 2016, strani 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
  • Philipp Koehn, Hieu Hoang. 2007. factored prevajanje modeli. Postopek 2007 skupne konference o empiričnih metodah za obdelavo naravnega jezika in računalniško učenje naravoslovnega jezika (EMNLP-CoNLL). Praga, Češka, strani 868-876. https://www.aclweb.org/anthology/D07-1091/
  • Rico Sennrich, Barry Haddow. 2016. jezikovne vhodne funkcije izboljšanje nevronske strojno prevajanje. Postopek prve konference o strojno prevajanje: zvezek 1, raziskovalni dokumenti. Berlin, Nemčija, strani 83-91. https://www.aclweb.org/anthology/W16-2209/
  • Vaswani, Ashish in shazeer, Noam in Parmar, Niki in Uszkoreit, Jakob in Jones, Llion in Gomez, Aidan N in Kaiser, Lukasz in Polosukhin, Illia. 2017. pozornost je vse, kar potrebujete. Napredek v nevronske informacijske sisteme za obdelavo 30. Strani 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need