Neurális gép fordítása, amely lehetővé teszi az emberi paritás innovációk a felhőben
Márciusban 2018 Bejelentette (Hasszán et al. 2018) egy áttörés eredményt, ahol megmutattuk az első alkalommal a gépi fordítási rendszer, amely végre, valamint az emberi fordítók (egy adott forgatókönyv-kínai-angol Hírek fordítása). Ez egy izgalmas áttörést a gépi fordítás kutatás, de a rendszer is épül a projekt egy komplex, nehézsúlyú kutatási rendszer, amely magában foglalja több élvonalbeli technikákat. Míg kiadtuk a kimenete ennek a rendszernek több teszt-készletek, a rendszer maga nem volt alkalmas a telepítés egy valós idejű gépi fordítás felhő API-t.
Ma izgatottan várjuk, hogy bejelenti a rendelkezésre álló termelés legújabb generációs neurális gépi fordítás modellek. Ezek a modellek bele a legtöbb jóság a mi kutatási rendszer, és most elérhető alapértelmezés szerint, amikor használja a Microsoft Translator API-t. Ezek új minták van elérhető ma-ban kínai, német, francia, hindi, olasz, spanyol, Japán, Koreai, és orosz,-ból és-hoz angol. Több nyelv hamarosan.
Ismerkedés a kutatási papír Cloud API
Az elmúlt egy évben, kerestünk a módját, hogy sok a minőségi emberi-paritásrendszer a Microsoft Fordító API, miközben továbbra is alacsony költségű, valós idejű fordítást kínál. Íme néhány lépés ezen az úton.
Tanár-diák képzés
Az első lépés az volt, hogy váltani a "tanár-diák" keret, ahol a vonat egy könnyű, valós idejű hallgató, hogy utánozza a nehézsúlyú tanár hálózat (Ba és Caruana 2014). Ezt úgy valósul meg a képzés a hallgató nem a párhuzamos adatokat, hogy az MT rendszerek általában képzett, de a fordítások által a tanár (Kim és a Rush 2016). Ez egy egyszerűbb feladat, mint a tanulás a nyers adatokat, és lehetővé teszi a sekélyebb, egyszerűbb hallgató nagyon szorosan követik a komplex tanár. Mint várhatnánk, a kezdeti kísérletek még mindig szenvedett minőségi csepp a tanár a hallgató (nem ingyenes ebéd!), de mégis került az első helyet a WNMT 2018 megosztott feladat a hatékony dekódolás (Junczys-Dowmunt et al. 2018a). Néhány különösen izgalmas eredményeket ennek az erőfeszítésnek az volt, hogy a transzformátor (Vaswani és szerzőtársai 2017) modellek és azok módosítását jól játszanak a tanár-diák képzés és meglepően hatékony során a következtetés a CPU-t.
Tanulás-ból ezek kezdő eredmények és után sok iteráció mi felfedező egy recept amit megenged-unk egyszerű hallgató-hoz volna majdnem ugyanaz tulajdonság mint a összetett tanár (néha van egy szabad ebéd végül?). Most már szabadon építeni nagy, komplex tanári modelleket, hogy maximalizálja a minőséget, nem kell aggódni a valós idejű korlátok (túl sok).
Valós idejű fordítási
Döntésünk, hogy váltani egy tanár-diák keretet motiválta a nagy munka Kim és Rush (2016) részére egyszerű RNN-kiindulópontul szolgáló minták. Ezen a ponton nem volt világos, hogy a bejelentett előnyök a transzformátor modellek esetében is nyilvánvalóok lennének-e (lásd Vaswani és szerzőtársai 2017 a modell részleteit). Mi azonban hamar felfedezték, hogy ez valóban a helyzet.
A transzformátor diák jönne egy nagyban egyszerűsített dekódolási algoritmus (mohó keresés), ahol csak vedd a egyetlen legjobb lefordított szó minden lépést, nem pedig a szokásos módszer (gerenda-keresés), amely magában foglalja a keresést a hatalmas teret a lehetséges Fordítások. Ez a változtatás minimális minőségi hatást gyakorolt, de a fordítási sebesség nagy javula vezetett. Ezzel szemben, a tanár modell szenvedne jelentős csökkenés a minőség, ha átállás Beam-keresés kapzsi-keresés.
Ezzel egy időben rájöttünk, hogy ahelyett, hogy a legújabb neurális architektúra (transzformátor önálló figyelmet) a dekóder, a hallgató lehet módosítani, hogy egy drasztikusan egyszerűsített és gyorsabb visszatérő (RNN) architektúra. Ez azért van így, mert míg a Transzformátorjeladó párhuzamosan a teljes forrásmondat alapján is kiszámítható, a célmondat egyetlen szót generál egy időben, így a dekóder sebessége nagy hatással van a fordítás teljes sebességén. Összehasonlítva az önálló figyelmet, az ismétlődő dekóder csökkenti algoritmikus összetettségét másodfokú a lineáris a TARGET mondat hosszát. Különösen a tanár-diák beállítás, láttunk nem minőségvesztés miatt ezeket a módosításokat, sem az automatikus, sem az emberi értékelés eredményeit. Számos további fejlesztés, mint például a paramétermegosztás, a komplexitás és a megnövekedett sebesség további csökkenését eredményezte.
Másik előnye, hogy a tanár-diák keretrendszer voltunk nagyon izgatott, hogy az, hogy a minőségi javulást idővel az egyre növekvő és a változó tanárok könnyen átvitt egy nem változó hallgatói építészet. Azokban az esetekben, amikor e tekintetben problémák merülnek fel, a tanulók modellkapacitásának kismértékű emelkedése ismét lezárja a rést.
Kettõs tanulás
A legfontosabb betekintést mögött kettős tanulás (Ő et al. 2016) van a "kerek-utazás fordítás" ellenőriz amit emberek néha használ-hoz ellenőriz fordítás tulajdonság. Tegyük fel, hogy mi használ egy online fordító menni angolról olaszra. Ha nem olvasunk olaszul, honnan tudjuk, ha ez jó munkát végzett? Mielőtt rákattintana Küldj -ra egy elektronikus levél, mi erő választ-hoz ellenőriz a tulajdonság mellett lefordítható a olasz hát-hoz angol (talán-ra egy különböző pókháló telek). Ha az angol kapunk vissza is tévedt túl messze az eredeti, esélye az egyik fordítása ment le a sínek.
A kettős tanulás ugyanazt a megközelítést alkalmazza, mint két rendszert (pl. angol-> olasz és olasz-> angol), ezzel párhuzamosan használva az egyik rendszerből az oda-vissza fordítást, a másik rendszer validálásához és betanításhoz.
A kettős tanulás nagyban hozzájárult az ember-paritás kutatási eredményhez. Az megy a kutatási rendszer a gyártási recept, mi általánosított ez a megközelítés széles körben. Nemcsak a két egymás mellett lévő kimeneten, hanem a párhuzamos adatok szűréséhez is ugyanazt a kritériumot használtuk.
Megtisztítása pontatlan adatok
A gépi fordítási rendszerek "párhuzamos adatokon", azaz olyan dokumentumok párán vannak kiképezve, amelyek egymás fordításai, ideális esetben egy emberi fordító által létrehozott. Mint kiderült, ez a párhuzamos adatok gyakran tele pontatlan fordítások. Előfordul, hogy a dokumentumok nem igazán párhuzamos, de csak laza parafrázis egymástól. Az emberi fordítók dönthetnek úgy, hogy kilépnek valamilyen forrásanyagból, vagy további adatokat szúrnak be. Az adatok tartalmazhatnak helyesírási hibát, helyesírási hibákat, nyelvtani hibákat. Néha adatbányászati algoritmusaink is tévesszen meg hasonló, de nem párhuzamos adatok, vagy akár a mondat a rossz nyelven. A legrosszabb az összes, sok a weboldalak látjuk spam, vagy ténylegesen gépi fordítás helyett emberi fordítások. Neurális rendszerek nagyon érzékenyek az ilyen jellegű pontatlanságra az adatokban. Azt találtuk, hogy az épület neurális modellek automatikusan azonosítani, és megszabadulni ezektől a pontatlanságokat adta jelentős javulást a minőségi rendszereink. Az Adatszűrés megközelítésünk az első helyet eredményezte a WMT18 párhuzamos Corpus Filtering benchmark (Junczys-Dowmunt 2018a), és hozzájárult az egyik legerősebb angol-német fordítórendszer kiépítéséhez a WMT18 News fordítási feladat (Junczys-Dowmunt 2018b). Használtuk továbbfejlesztett változata ezt a megközelítést a termelési rendszerek is megjelent ma.
Faktorolt szó képviseletek
Amikor egy kutatási technológiát a gyártással mozgatunk, számos valós kihívás merül fel. Első számok, dátumok, idő, nagybetűs, térköz, stb jobb kérdésekben sokkal több a termelés, mint a kutatási rendszer.
Fontolja meg a kihívást a kapitalizáció. Ha voltak ' fordítás a mondat "néz macska video itt". Tudjuk, hogyan kell lefordítani "macska". Mi akar akar-hoz Lefordít "macska" ugyanaz út. De most úgy "Watch US Soccer itt". Nem akarjuk összetéveszteni a "mi" és az "USA" szót ebben az összefüggésben.
Ennek kezeléséhez használt egy megközelítést ismert faktored gépi fordítás (Koehn és Hoang 2007, Sennrich és Haddow 2016), amely a következőképpen működik. A "Cat" vagy "CAT" kódszám helyett egyetlen numerikus ábrázolást ("beágyazást") használunk, amely több, úgynevezett "tényezőt" is használ. Ebben az esetben, az elsődleges beágyazása lenne ugyanaz a "CAT" és a "macska", de egy külön tényező jelentené a kapitalizáció, azt mutatja, hogy ez volt az All-Caps egy esetben, de kisbetűs a másikban. Hasonló tényezőket alkalmaznak a forrás és a céloldal.
Hasonló tényezőket használunk a szótöredékek és a szavak közötti térköz kezelésére (komplex kérdés a nem térközök vagy a félig térközű nyelveken, mint a kínai, Koreai, Japán vagy thai).
Tényezők is drámaian javult fordítását számok, ami fontos a sok forgatókönyv. Számfordítás többnyire egy algoritmikus átalakulás. Például, 1 234 000 lehet írott mint 12, 34000-ban hindi, 1.234.000-ban német, és 123,4 万-ban kínai. Hagyományosan a számok reprezentáltak, mint a szavak, a csoportok karakterek különböző hosszúságú. Ez megnehezíti a gépi tanulást, hogy felfedezzék az algoritmust. Ehelyett minden egyes számjegyet külön adagolunk, a kezdet és a vég faktorokkal. Ez az egyszerű trükk erőteljesen és megbízhatóan eltávolította szinte az összes szám-fordítási hibákat.
Gyorsabb modell képzés
Amikor mi vagyunk a képzés egyetlen rendszer felé, egy cél, mint mi az emberi-paritás kutatási projekt, azt várjuk, hogy dobja nagy számú hardvert modellek, amelyek hetekig a vonat. A 20 + nyelvpárra vonatkozó gyártási modellek esetében ez a megközelítés nem tartható. Nem csak mi kell ésszerű fordul-körüli idő, de mi is kell, hogy mérsékel a hardver igényeket. A projekthez számos teljesítménynövelő javítást tettünk Marian NMT (Junczys-Dowmunt et al. 2018b).
Marian NMT a nyílt forráskódú Neural MT Toolkit, hogy a Microsoft Translator alapul. Marian egy tiszta c + + neurális gépi fordítás Toolkit, és ennek eredményeként rendkívül hatékony, nem igényel GPU futásidőben, és nagyon hatékony a képzési idő
Miatt önálló jellegű, nagyon könnyen optimalizálható Marian a NMT konkrét feladatok, ami az egyik leghatékonyabb NMT eszközkészletek elérhető. Vessen egy pillantást a Referenciaértékek. Ha érdekli a neurális MT kutatás és fejlesztés, kérjük, csatlakozzon, és hozzájárulnak a Közösség GitHub.
A vegyes precizitású edzésen és dekódolással kapcsolatos fejlesztésünk, valamint a nagyobb képzési modell hamarosan elérhetőek lesznek az állami GitHub repository-ban.
Izgatottan várjuk a jövő neurális gépi fordítás. Továbbra is az új modell architektúrát fogjuk a többi nyelvre és Egyéni fordítói egész évben. Felhasználóink automatikusan a jobb minőségű fordításokat kapnak a Fordító APIMi Translator app, A Microsoft Office és az Edge böngésző. Reméljük, hogy az új fejlesztések segítik az Ön személyes és szakmai életét, és várom a visszajelzéseket.
Hivatkozások
- Jimmy ba és Rich Caruana. 2014. ne Deep Nets tényleg kell Deep? Előlegek neurális Információfeldolgozási rendszerek 27. Oldalak 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
- Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, MU Li, Shujie Liu, tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhang Zhirui, Ming Zhou. 2018. az emberi paritás elérése automatikus kínairól az angol Hírek fordítására. http://arxiv.org/abs/1803.05567
- Ő, di és Xia, Yingce és Qin, Tao és Wang, Liwei és Yu, Nenghai és Liu, tie-Yan és ma, Wei-Ying. 2016. Dual tanulás a gépi fordítás. Fejlődése neurális Információfeldolgozási rendszerek 29. Oldalak 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
- Marcin Junczys-Dowmunt. 2018a. kettős feltételes Cross-entrópia szűrése zajos párhuzamos Corpora. A gépi fordítás harmadik konferenciájának eljárása: megosztott Feladatdokumentumok. Belgium, oldalak 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
- Marcin Junczys-Dowmunt. 2018b. Microsoft benyújtása a WMT2018 Hírek fordítási feladat: Hogyan megtanultam, hogy ne aggódjon, és Szeresd az adatokat. A gépi fordítás harmadik konferenciájának eljárása: megosztott Feladatdokumentumok. Belgium, oldalak 425-430. https://www.aclweb.org/anthology/W18-6415/
- Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: költséghatékony, magas színvonalú neurális gépi fordítás C++ nyelven. Az eljárás a második workshop a neurális gépi fordítás és generáció. Melbourne, Ausztrália, oldalak 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
- Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: gyors neurális gépi fordítás c + +. Eljárás az ACL 2018, rendszer bemutatók. Melbourne, Ausztrália, oldalak 116-121. https://www.aclweb.org/anthology/P18-4020/
- Yoon Kim és Alexander M. Rush. 2016. szekvenciaszintű tudás lepárlása. Az eljárás a 2016 konferencia empirikus módszerek természetes nyelvi feldolgozás, EMNLP 2016, Austin, Texas, USA, november 1-4, 2016, 1317 oldal-1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
- Philipp Koehn, Hieu Hoang. 2007. faktored fordítási modellek. A természetes Nyelvfeldolgozással és a természetes nyelvtanulással (EMNLP-CoNLL) kapcsolatos empirikus módszerekről szóló 2007 közös konferencia eljárásai. Prága, Cseh Köztársaság, oldalak 868-876. https://www.aclweb.org/anthology/D07-1091/
- Rico Sennrich, Barry Haddow. 2016. nyelvi input funkciók javítása neurális gépi fordítás. A gépi fordítás első konferenciájának eljárása: 1. kötet, kutatási dokumentumok. Berlin, Németország, oldalak 83-91. https://www.aclweb.org/anthology/W16-2209/
- Vaswani, Ashish és shazeer, Noam és PARMAR, Niki és Uszkoreit, Jakob és Jones, Llion és Gomez, Aidan N és Kaiser, Lukasz és Polosukhin, Illia. 2017. Figyelem van minden amire szükséged van. Előlegek neurális Információfeldolgozási rendszerek 30. Oldalak 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need