Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Tauga Vél Þýðing Gerir Manna Jafns Nýjungum Í Ský

Í Mars við 2018 tilkynnt (Hassan et al. 2018) bylting vegna þar sem við sýndi í fyrsta sinn Vél Þýðing kerfi sem gæti gert eins vel og mönnum þýðendur (í sérstakar aðstæður – Kínversk-ensku fréttir þýðing). Þetta var spennandi bylting í Vél Þýðing rannsóknir, en kerfið við byggt fyrir þetta verkefni var flókið, þungavigtar rannsóknir kerfinu, að fella margar fremstu röð tækni. Á meðan við út framleiðsla af þessu kerfi á nokkur próf setur, kerfinu sjálfu var ekki viðeigandi fyrir dreifing í rauntíma vél þýðing ský API.

Í dag við erum spennt að tilkynna framboð í framleiðslu á okkar kynslóð af tauga Vél Þýðing módel. Þessar gerðir fella mest um gæsku rannsóknir okkar kerfi og nú eru í boði sjálfgefið þegar þú notar Microsoft Þýðandi API. Þessar nýju gerðir eru í boði í dag í Kínverska, þýsku, frönsku, Hindí, ítalska, spænska, Japanskar,, og rússneska, frá og að ensku. Meira tungumálum eru að koma fljótlega.

Að komast frá Rannsóknum Pappír til að Ský API

Á síðasta ári, við höfum verið að að leita leiða til að koma mikið af okkar mönnum-jafns kerfi í Microsoft Þýðandi API, en heldur áfram að bjóða lágt-kosta rauntíma þýðingu. Hér eru sum sporin á ferð.

Kennara Og Nemanda Þjálfun

Okkar fyrsta skref var að skipta yfir í "kennara og nemanda" ramma, þar sem við lest léttur rauntíma nemandi til að líkja eftir þungavigtar kennari net (Ba og Caruana 2014). Þetta er komið með þjálfun nemandi ekki á samhliða gögn sem MT kerfi eru yfirleitt þjálfaðir á, en á þýðingar framleitt af kennari (Kim og Þjóta 2016). Þetta er einfaldara verkefni en að læra frá hrátt gögn, og gerir grynnri, einfaldari nemandi mjög náið fylgja flókið kennari. Eins og ætla mætti okkar fyrstu tilraun samt orðið gæði dropar frá kennara til nemandi (ekki frjáls hádegismatur!), en við engu að síður tók fyrsta sæti í WNMT 2018 Deilt Verkefni á Duglegur að Afkóða (Junczys-Dowmunt et al. 2018a). Sumir sérlega spennandi niðurstöður úr þessi fyrirhöfn voru að Spenni (Vaswani et al. 2017) líkön og breytingar þeirra spila vel með kennara og nemanda þjálfun og eru astoundingly duglegur á ályktun á CPU.

Læra af þessum upphaflegu niðurstöður og eftir mikið af endurtekning við uppgötvuðum uppskrift sem gerir okkar einfalt nemandi að fá næstum sömu gæði og flókið kennari (stundum er það ókeypis hádegisverður eftir allt saman?). Nú erum við vorum frjáls til að byggja stór, flókið kennari gerðir til að hámarka gæði, án þess að hafa áhyggjur alvöru tímamörk (of mikið).

Rauntíma þýðing

Ákvörðun okkar til að skipta yfir í kennara og nemanda ramma var innblásinn af frábært að vinna með Kim og Þjóta (2016) fyrir einfalt RNN byggir módel. Á þeim tímapunkti var óljóst ef tilkynnt bætur hefði komið fyrir Spenni gerðum eins og vel (sjá Vaswani et al. 2017 fyrir upplýsingar á þessu líkani). Hins vegar, við komst fljótt að því að þetta var örugglega málið.

Spenni nemandi gæti notað mjög einfaldað að afkóða reiknirit (gráðugur leita) hvar við bara taka einn besta þýtt orð í hverju skrefi, frekar en venjulega aðferð (geisla-leita) sem felur í sér að leita í gegnum mikið pláss mögulegt þýðingar. Þessi breyting hafði lágmarks gæði áhrif en leiddi til stór úrbætur í þýðingu hraða. Með því móti, kennari fyrirmynd myndi þjást lækkun í gæði þegar skipt frá geisla-leita að gráðugur-að leita.

Á sama tíma, við áttaði mig á að frekar en að nota nýjustu tauga arkitektúr (Spenni með sjálf-athygli) í tengd, nemandi gæti verið breytt að nota verulega einfaldað og hraðar endurtekin (RNN) arkitektúr. Þetta skiptir máli því á meðan Spenni kóðun hægt að reikna yfir allt uppspretta setningu samhliða miða setning er mynda eitt orð í einu, svo hraða tengd hefur mikil áhrif á almenna hraða þýðingu. Samanborið við sjálf-athygli, endurtekin tengd dregur algrími flókið frá stigs að línulegum í target setningu lengd. Sérstaklega í kennara og nemanda stilling, við sáum ekkert tap í gæði vegna þessar breytingar, hvorki fyrir sjálfvirka né mönnum mat árangri. Nokkrir fleiri úrbætur eins og viðfang deila leiddi til frekari lækkun í flókið og aukinn hraða.

Annar kostur kennara og nemanda ramma við vorum mjög spennt að sjá er að gæði úrbætur yfir tíma sífellt vaxa og breyta kennarar eru auðvelt að fara yfir að ekki breyta nemandi arkitektúr. Í málum þar sem við sáum vandamál í þessu sambandi, smá eykst í nemandi fyrirmynd getu myndi brúa bilið aftur.

Tvöfalda Að Læra

Lykillinn innsýn bak tvöfalda að læra (Hann et al. 2016) er "umferð-ferð þýðing" athuga að fólk stundum nota til að athuga þýðing gæði. Segjum sem svo að við erum með á netinu þýðandi að fara úr ensku á ítölsku. Ef við heyrum ekki ítölsku, hvernig vitum við að ef það er gert gott starf? Áður en smella sendu á tölvupóst, við gætum valið að athuga gæði með því að þýða ítalska aftur til ensku (kannski á mismunandi vefinn). Ef ensku við komum til baka hefur villst of langt frá upprunalega, líkurnar eru einn af þýðingar fór út af sporinu.

Tvöfalda að læra notar sama aðferð til að þjálfa tvö kerfi (t. ensku->ítalska og ítalska->ensku) samhliða því að nota hringinn-ferð þýðing úr eitt kerfi til að skora, staðfesta og að þjálfa önnur kerfi.

Tvöfalda að læra var stórt framlag til okkar mönnum-jafns rannsóknir niðurstöðu. Í fara frá rannsóknum kerfi til okkar framleiðslu uppskrift, við almenn þessi aðferð í stórum dráttum. Ekki bara við co-lest pör af kerfi á hvor aðra er framleiðsla, við líka notað sama viðmiðun til að sía okkar samhliða gögn.

Hreinsa upp rangar upplýsingar

Vél þýðing kerfi eru þjálfaðir á "samhliða gögn", þ. pör af skjöl sem eru þýðingar á hvor aðra, helst búin til af mönnum þýðandi. Eins og það kemur í ljós, þetta samhliða gögn er oft fullt af rangar þýðingar. Stundum skjöl eru ekki sannarlega samhliða en aðeins laus paraphrases hvert annað. Mönnum þýðendur getur valið að fara út sumir heimild efni eða setja frekari upplýsingar. Gögnin getur innihalda stafsetningarvillum, stafsetningarvillur, málfræði villur. Stundum gögn okkar nám reiknirit eru blekkjast af svipuðum en ekki samsíða gögn, eða jafnvel með setningar á röngum tungumál. Verst af öllu, mikið af vefsíðum við sjáum eru spam, eða getur í raun verið vél þýðingar frekar en mönnum þýðingar. Tauga kerfi eru mjög viðkvæm fyrir svona ónákvæmni í gögn. Við komist að því að byggja tauga gerðir til að sjálfkrafa bera kennsl á og losna við þetta ónákvæmni gaf sterk úrbætur í okkar kerfi. Okkar nálgun að gögn sía leiddi í fyrsta sæti í WMT18 samhliða corpus sía viðmið (Junczys-Dowmunt 2018a) og hjálpaði byggja eitt af sterkustu ensku-þýska þýðing í kerfi WMT18 Fréttir þýðing verkefni (Junczys-Dowmunt 2018b). Við notuðum bætt útgáfa af þessari nálgun í framleiðslu kerfi sem við út í dag.

Reiknað orð á móti

Þegar flytja rannsóknir tækni til að framleiðslu, nokkrir í raunverulegum heimi viðfangsefni koma upp. Að fá tölurnar, dagsetningar, sinnum, fjármögnun, bil, og fleira. rétt mál mikið meira í framleiðslu en í rannsókn þinni.

Íhuga áskorun fjármögnun. Ef við erum að þýða setningu "HORFA KÖTTUR MYNDBÖND HÉR". Vitum við hvernig á að þýða "köttur". Við viljum að þýða "KÖTTUR" á sama hátt. En nú íhuga "Horfa á OKKUR fótbolta hér". Við viljum ekki að rugla orðið "okkur" og skammstöfun "OKKUR" í þessu samhengi.

Til að takast þetta, verðum við að nota aðferð þekktur sem reiknað vél þýðing (Koehn og Hoang 2007Sennrich og Haddow 2016) sem virkar þannig. Í stað þess að einn töluna fulltrúa ("grafið") fyrir "köttur" eða "KÖTTUR", við notum margar embeddings, þekktur sem "þætti". Í þessu tilfelli, aðal grafið væri sama fyrir "KÖTTUR" og "köttur" en sérstakur þáttur myndi tákna fjármögnun, sýni að það var allt-húfur í eitt dæmi en lágstafir í öðrum. Svipað þáttum eru notuð á uppspretta og miða hlið.

Við notum svipað þáttum að höndla orð brot og bil á milli orð (flókið mál í non-bil eða hálf-bil tungumálum eins og Kínversku, kóreu, Japanskar eða Tælensku).

Þáttum einnig verulega betri þýðing á tölurnar, sem er mikilvægt í mörgum aðstæður. Númer þýðingin er að mestu leyti í algrími umbreytingu. Til dæmis, 1,234,000 getur verið skrifað eins og 12,34,000 í Hindí, 1.234.000 í þýsku, og 123.4 万 á Kínversku. Í gegnum tíðina, tölur eru að fulltrúa eins og orð, eins og tekur stafi af mismunandi lengd. Þetta gerir það erfitt fyrir vél að læra að uppgötva reiknirit. Í staðinn, við fæða hvert einasta stafa af númer fyrir sig, með þáttum merkingar upphaf og endir. Þetta einfalt bragð robustly og örugglega fjarri næstum öll númer-þýðing villur.

Hraðar fyrirmynd þjálfun

Þegar við erum þjálfun eitt kerfi átt eitt markmið, eins og við gerðum fyrir mönnum-jafns rannsóknarverkefni, búast við að kasta mikill fjöldi vélbúnaður á gerðir það tekur margar vikur að þjálfa. Þegar þjálfun framleiðslu módel fyrir 20+ tungumál pör, þetta nálgun verður óviðunandi. Ekki aðeins þurfum við sanngjarnt snúa-í kringum sinnum, en við þurfum líka að meðallagi vélbúnaði okkar kröfur. Fyrir þetta verkefni, við höfum gert fjölda árangri til Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT er opinn Tauga MT tól að Microsoft Þýðandi er byggt á. Marian er hreint C tauga vél þýðing tól, og þess vegna er mjög duglegur, ekki þurfa GPUs á afturkreistingur, og mjög duglegur á þjálfun tíma

Vegna þess sjálf-sem er eðli sínu, það er mjög auðvelt að hagræða Marian fyrir NMT sérstakt verkefni, sem leiðir í einn af þeim mest duglegur NMT verkfæri í boði. Skoðaðu viðmið. Ef þú hefur áhuga á Taugum MT rannsóknir og þróun, vinsamlegast taka þátt og stuðla að samfélag á Kaupanda.

Okkar um úrbætur í bland-nákvæmni þjálfun og að lesa, eins og stór fyrirmynd þjálfun mun brátt verða í boði í opinberum Kaupanda geymsla.

Við erum spennt um framtíð tauga vél þýðing. Við munum halda áfram að rúlla út nýja gerð arkitektúr við eftir og tungumálum Sérsniðin Þýðandi allt þetta ár. Notendur okkar mun sjálfkrafa fá verulega betri gæði þýðingar í gegnum Þýðandi APIokkar Þýðandi appMicrosoft Skrifstofu, og Brún vafra. Við vonum að nýju úrbætur hjálpa persónulegum og atvinnumenn og hlökkum til að þitt álit.

 

Tilvísanir

  • Jimmy Ba og Ríkur Caruana. 2014. Ekki Djúpt Netin Þarft Virkilega að vera Djúpt? Framfarir í Tauga Upplýsingar Vinnslu Kerfi 27. Síður 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
  • Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Þau Junczys-Dowmunt, William Lewis, Mu Li, Shujie Liu, Binda-Á Liu, Renqian Luo, Arul Menezes, Thao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Hins, Zhirui Hins, Ming Hann. 2018. Að ná Mönnum fjölda Barna á Sjálfvirka Kínversku að ensku Fréttir Þýðingu. http://arxiv.org/abs/1803.05567
  • Hann, Di og Xia, Yingce og Qin, Thao og Wang, Liwei og Yu, Nenghai og Liu, Binda-Á og Mamma, Wei-Ying. 2016. Tvöfalda að Læra fyrir Vél Þýðing. Framfarir í Tauga Upplýsingar Vinnslu Kerfi 29. Síður 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
  • Þau Junczys-Dowmunt. 2018a. Tvöfalda Skilyrt Cross-Óreiða Sía af Noisy Samhliða Corpora. Málsmeðferð Þriðja Ráðstefnu á Vél Þýðing: Deilt Verkefni Pappíra. Belgíu, síður 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
  • Þau Junczys-Dowmunt. 2018b. Microsoft Skil til WMT2018 Fréttir Þýðing Verkefni: Hvernig ég Lærði að Hætta að hafa Áhyggjur og Ást Gögn. Málsmeðferð Þriðja Ráðstefnu á Vél Þýðing: Deilt Verkefni Pappíra. Belgíu, síður 425-430. https://www.aclweb.org/anthology/W18-6415/
  • Þau Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: hagkvæman Hágæða Tauga Vél Þýðing í C. Málsmeðferð 2 Verkstæði á Taugum Vél Þýðing og Kynslóð. Melbourne, Ástralía síður 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
  • Þau Junczys-Dowmunt, Roman Grundkiewicz, Thomas Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: Hratt Tauga Vél Þýðing í C. Málsmeðferð BENJAMIN 2018, Kerfi Sýnikennslu. Melbourne, Ástralía síður 116-121. https://www.aclweb.org/anthology/P18-4020/
  • Yoon Kim og Alexander M. Þjóta. 2016. Röð-stigi þekkingu eimingu. Í Mál 2016 Ráðstefnu á Reynslunni Aðferðir í Náttúrulega Tungumál Vinnslu, EMNLP 2016, Austin, Texas, voru BANDARÍKIN, nóvember 1-4, 2016, síður 1317-1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
  • Philippe Koehn, Hieu Hoang. 2007. Reiknað Þýðing Módel. Málsmeðferð 2007 Sameiginlega Ráðstefnu á Reynslunni Aðferðir í Náttúrulega Tungumál Vinnslu og Útreikninga Eðlilegt að Læra Tungumál (EMNLP-CoNLL). Prag í tékklandi, síður 868-876. https://www.aclweb.org/anthology/D07-1091/
  • Rico Sennrich, Barry Haddow. 2016. Tungumála Inntak Lögun Bæta Tauga Vél Þýðing. Málsmeðferð af Fyrstu Ráðstefnu á Vél Þýðing: Bindi 1, rannsóknarefni. Berlín, Þýskaland, síður 83-91. https://www.aclweb.org/anthology/W16-2209/
  • Vaswani, Ashish og Shazeer, Noam og Parmar, Niki og Uszkoreit, Jakob og Jones, Llion og Gomez, Aidan N og Kaiser, Lukasz og Polosukhin, Illia. 2017. Athygli er allt sem þú þarft. Framfarir í Tauga Upplýsingar Vinnslu Kerfi 30. Síður 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need