Vél Þýðing
Hvað er vél þýðing?
Vél þýðing kerfi eru í forritum eða á netinu þjónustu að nota vél-að læra tækni til að þýða mikið magn af texta frá og að allir þeirra tungumál. Þjónustan þýðir "heimild" texta frá eitt tungumál til mismunandi "miða" tungumál.
Þótt hugmyndir á bak vél þýðing tækni og tengi að nota það eru tiltölulega einfalt, vísinda og tækni á bak við það eru afar flókin og koma saman nokkrum leiðandi tækni, einkum djúpt að læra (gervigreind), stór gögn, málvísindum, ský tölvunarfræði, og vefur Api.
Síðan snemma 2010s, nýja gervigreind tækni, djúpt tauga net (aka djúpt að læra), hefur leyft tækni ræðu viðurkenningu að ná góða stigi sem gerði Microsoft Þýðandi lið til að sameina ræðu viðurkenningu með kjarna texta þýðing tækni til að hefja nýtt ræðu þýðing tækni.
Sögulega, aðal vél að læra tækni notuð í greininni var Tölfræðilegar Vél Þýðing (SMT). SMT notar háþróaður tölfræðilega greiningu að meta besta mögulega þýðingar fyrir orð gefið samhengi nokkur orð. SMT hefur verið notuð síðan mid-2000 af öllum helstu þýðing veita þjónustu, þar á meðal Microsoft.
Tilkomu Tauga Vél Þýðing (NMT) olli róttæka vakt í þýðingu tækni, sem leiðir í miklu meiri gæði þýðingar. Þetta þýðing tækni byrjaði að beita fyrir notendur og verktaki í seinni hluti af 2016.
Bæði SMT og NMT þýðing tækni hafa tvo þætti í sameiginlegt:
- Báðar þurfa mikið magn af fyrirfram-manna þýtt efni (upp til milljóna þýtt setningar) til að þjálfa kerfi.
- Hvorki starfa sem tveimur orðabækur, þýða orð byggt á lista mögulegra þýðingar, en þýða byggt á tengslum við orðið sem er notað í setningu.
Hvað er Þýðandi?
Þýðandi og Ræðu þjónustu, hluti af Vitsmunalegum Þjónustu safn af Api, eru vél þýðing úr Microsoft.
Texta þýðing
Þýðandi hefur verið notaður af Microsoft-hópum síðan 2007 og er fáanlegur sem API fyrir viðskiptavini síðan 2011. Þýðandi er mikið notaður innan Microsoft. Það er fellt inn í staðfæringu vöru, stuðning og samskiptateymi á netinu. Þessi sama þjónusta er einnig aðgengileg, án aukakostnaðar, innan kunnuglegra Microsoft-vara eins og Bing, Microsoft forskot, Microsoft Brún, Skrifstofu, SharePoint, Skypeog Yammer.
Þýðandi hægt er að nota í vefnum eða viðskiptavinur forrit á hvaða vélbúnaður vettvang og með hvaða stýrikerfi að framkvæma tungumál þýðingu og önnur tungumál sem tengjast starfsemi eins og tungumál uppgötvun, texta ræðu, eða orðabók.
Meira iðnaður standard HVÍLA tækni, verktaki sendir uppspretta texta (hljóð eða fyrir ræðu þýðing) til þjónustu með viðfang gefur til kynna að miða tungumál, og þjónustu sendir aftur þýtt texta fyrir viðskiptavinur eða vefur app til að nota.
Þýðandi þjónustu er heiðblár þjónustu hýst í Microsoft gögn sent og fríðindi frá öryggi, sveigjanleika, áreiðanleika, og stanslaus framboð að öðrum Microsoft ský þjónustu líka fá.
Ræðu þýðing
Þýðandi ræðu þýðing tækni var hleypt af seint 2014 að byrja með Skype Þýðandi, og er í boði sem opinn API fyrir viðskiptavini síðan snemma 2016. Það er innbyggt í Microsoft Þýðandi lifandi lögun, Skype, Skype-fundur útvarpað, og Microsoft Þýðandi forrit fyrir tölvupósti.
Ræðu þýðing er nú laus í gegnum Microsoft Ræðu, enda til enda sett á fullu sérhannaðar þjónustu fyrir viðurkenningu ræðu, ræðu þýðingu, og ræðu myndun (texta-að-ræðu).
Hvernig er textinn þýðing vinna?
Það eru tveir helstu tækni notað til að texta þýðing: arfleifð einn, Tölfræðilegar Vél Þýðing (SMT), og nýrri kynslóð einn, Tauga Vél Þýðing (NMT).
Tölfræðilegar vél þýðing
Þýðandi er framkvæmd Tölfræðilegar Vél Þýðing (SMT) er byggð á meira en áratug af náttúrulegum-tungumál rannsóknir á Microsoft. Frekar en að skrifa handunnið reglur að þýða á milli tungumálum, nútíma þýðing kerfi nálgun þýðing eins og vandamál að læra umbreytingu texta á milli tungumálum frá núverandi manna þýðingar og meira nýlegar framfarir í beita tölfræði og vél að læra.
Svokallaða "samhliða corpora" starfa eins og nútíma Rosetta Stone í miklum hlutföll, að veita orð, setning, og beita þýðingar í samhengi í mörg pör tungumál og ríki. Tölfræðilegar sitja tækni og duglegur reiknirit hjálp þinni að takast á við vandamál decipherment (greina correspondences milli uppspretta og tungumál miða í þjálfun gögn) og lesa (að finna bestu þýðing á ný inntak setningu). Þýðandi sameinar krafti tölfræðilegar aðferðir með tungumála upplýsingar til að framleiða módel að alhæfa betra og leiða til meira skiljanlega þýðingar.
Vegna þessa aðferð, sem er ekki hægt að treysta á orðabækur eða málfræði reglur, það veitir besta þýðingar setningar þar sem það er hægt að nota samhengi í kringum tiltekið orð á móti reyna að framkvæma eitt orð þýðingar. Fyrir eitt orð þýðingar, tveimur orðabók var þróað og er að komast í gegnum www.bing.com/translator.
Tauga vél þýðing
Samfelld úrbætur að þýðing eru mikilvæg. Hins vegar, árangur endurbætur hafa ekki lengur fram með SMT tækni frá miðju-2010s. Með því að fá mælikvarða og krafti Microsoft AI ofurtölvu, sérstaklega Microsoft Vitsmunalegum Tól, Þýðandi nú býður upp á tauganet (LSTM) byggt þýðingu sem gerir nýja áratug þýðing gæði framför.
Þessi tauganet gerðir eru í boði fyrir alla ræðu tungumálum í gegnum Ræðu þjónustu á Aftur og í gegnum textann API með því að nota 'generalnn' AUÐKENNI.
Tauganet þýðingar grundvallaratriðum munur á því hvernig þeir eru gerðar miðað við hefðbundnum SMT sjálfur.
Eftirfarandi fjör sýnir mismunandi skref tauganet þýðingar fara í gegnum til að þýða setning. Vegna þessa aðferð, þýðingu mun taka í samhengi fullt setning, móti aðeins nokkur orð renna glugga að SMT tækni notar og mun framleiða meiri vökva og mönnum-þýtt að leita þýðingar.
Byggt á tauga-netið þjálfun, hvert orð er á dulmáli með 500-mál vektor () fulltrúi hennar einstök einkenni innan einkum tungumál par (t. ensku og Kínversku). Byggt á tungumáli pör notað fyrir þjálfun, tauganet mun sjálf-skilgreina hvað þetta mál ætti að vera. Þeir gætu kóða einfaldar hugmyndir eins og kyni (kvenleg, karlkyns, hlutlaus), kurteisi stigi (slangur, casual, skrifað, formlega, og fleira.), hvaða orð (sögn, nafnorð, og fleira.), en líka allir aðrir ekki augljóst einkenni eins og úr þjálfun gögn.
Skref tauganet þýðingar fara í gegnum eru eftirfarandi:
- Hvert orð, eða nánar tiltekið 500-vídd vektor fulltrúi það, fer í gegnum fyrsta lagið "taugafrumum" sem mun vinna með það í 1000-vídd vektor (b) fulltrúi orð í samhengi af öðrum orðum í setningunni.
- Þegar allt orð hafa verið dulmál eitt sinn í þessum 1000-vídd vektor, ferlið er endurtekin nokkrum sinnum, hvert lag leyfa betra að fínstilla þetta 1000-vídd fulltrúar orð í samhengi fullt setningu (gegn SMT tækni sem geta aðeins að taka tillit til 3 til 5 orð glugga)
- Endanleg framleiðsla fylki er þá notað af athygli lag (ég. hugbúnaður reiknirit) sem mun nota bæði þetta endanlega framleiðsla fylki og framleiðsla áður þýtt orð til að skilgreina hvaða orð, frá uppspretta setning, ætti að þýða næsta. Það verður líka að nota þessar útreikningum að hugsanlega falla óþarfa orð í miða á tungumáli.
- Því tengd (þýðing) lag, þýðir valið orð (eða nánar tiltekið 1000-vídd vektor fulltrúi þetta orð í samhengi fullt setningu) í viðeigandi miða tungumál jafngildir. Framleiðsla þetta síðasta lag (c) er þá gefið aftur í athygli lag á að reikna sem næstu orð frá uppspretta setningu ætti að þýða.
Í dæmis lýst í fjör, samhengi-meðvitaður um 1000-vídd líkan af "the"mun vinna að nafnorð (húsið) er kvenleg orð í franska (la maison). Þetta verður að leyfa viðeigandi þýðingu fyrir "the"til að vera "la"og ekki "le"(eintölu, karl) eða "les"(fleirtölu) þegar það nær tengd (þýðing) lag.
Athygli reiknirit verður líka að reikna, byggt á orð(s) áður þýtt (í þessu tilfelli "the"), að næstu orð til að þýða ætti að vera háð ("húsið") og ekki lýsingarorð ("blár"). Í hægt að ná þessu vegna þess að kerfi lært að ensku og franska snúa röð þessi orð í setningar. Það myndi hafa reiknað líka að ef lýsingarorð voru að vera "stóra"í stað þess að lit, sem það ætti ekki að snúa þeim ("stóra húsið"=> "la grande maison").
Takk að þessi aðferð, endanleg framleiðsla er í flestum tilfellum, liprari og nær til manna þýðingu en SMT byggir þýðing gæti hafa alltaf verið.
Hvernig er ræðu þýðing vinna?
Þýðandi er líka fær um að þýða ræðu. Þessi tækni er að verða í Þýðandi lifandi lögun (http://translate.it), Þýðandi forrit, Skype Þýðandi og er líka í Upphafi í boði aðeins í gegnum Skype Þýðandi lögun og í Microsoft Þýðandi forrit á hvaða Andrew, þetta virkni er nú hægt að verktaki með nýjustu útgáfu af opna HVÍLA byggir API í boði á Aftur gáttina.
En það getur virst eins og beint fram ferli á fyrstu sýn að byggja upp ræðu þýðing tækni frá núverandi tækni múrsteina, það þarf miklu meira vinna en einfaldlega að tengja núverandi "hefðbundin" mönnum-að-vél ræðu viðurkenningu vél til núverandi texta þýðing einn.
Til almennilega þýða "heimild" ræðu frá eitt tungumál til mismunandi "miða" tungumál, kerfið fer í gegnum fjögur-skref ferli.
- Ræðu viðurkenningu, til að breyta hljóð í inn texta
- TrueText: Microsoft tækni sem eðlilegra textann að gera það meira viðeigandi fyrir þýðing
- Þýðing í gegnum textann þýðing vél sem lýst er yfir en á þýðing gerðir sérstaklega þróað í raunveruleikanum talað samtöl
- Texta-að-ræðu, þegar þörf krefur, til að framleiða þýtt hljóð.
Sjálfvirk Ræðu Viðurkenningu (ASR)
Sjálfvirk Ræðu Viðurkenningu (ASR) er flutt með tauganet (NN) kerfi þjálfaðir á greina þúsundir stunda komandi hljóð ræðu. Þessu líkani er þjálfaður á mönnum-til-mannlegum samskiptum frekar en mönnum-að-vél skipanir, framleiða ræðu viðurkenning sem er hannað fyrir eðlilega samtöl. Til að ná þessu, miklu meira gögn er þörf auk stærri DNN en hefðbundin mönnum-að-vél ASRs.
Læra meira um Microsoft ræðu að texta þjónustu.
TrueText
Eins og menn tala við aðra menn, við ekki að tala eins og fullkomlega, greinilega eða snyrtilegur eins og við oft held að við gerum. Við TrueText tækni, beinn texti er umbreytt að betur endurspegla notandi ætlunin með því að fjarlægja ræðu disfluencies (viðbót orð), eins og "hmm"s, "ah"s, "og"s, "eins og"s, stam, og endurtekningar. Textinn er einnig gert meira stúlkum og þýða úr með því að bæta setningu hlé, rétt greinarmerki, og fjármögnun. Til að ná þessum árangri, við notuðum áratugi vinnu á tungumáli tækni, við þróað frá Þýðandi að búa TrueText. Eftirfarandi skýringarmynd sýnir, með alvöru dæmis, ýmsum umbreytingu TrueText starfar að jafna þetta beinn texti.
Þýðing
Textinn er þá þýtt í einhverju tungumálum og mállýskur stutt af Þýðandi.
Þýðingar með ræðu þýðing API (sem verktaki) eða í ræðu þýðing app eða þjónustu, er knúið með nýjustu tauga-netið byggt þýðingar fyrir alla ræðu-inntak tungumála (sjá hér fyrir fullt lista). Þessar gerðir voru einnig byggð af auka núverandi, að mestu leyti skrifað-texta þjálfaðir þýðing módel, með meira talað-textasöfn að byggja betri fyrirmynd fyrir talað samtal tegundir af þýðingar. Þessar gerðir eru líka í boði í gegnum "ræðu" standard flokkur af hefðbundnum texta þýðing API.
Fyrir hvaða tungumál ekki stutt af tauga þýðingu, hefðbundin SMT þýðing er flutt.
Texta Ræðu
Ef miða tungumál er einn af 18 stutt texta-að-ræðu tungumálumog nota málið krefst hljóð framleiðsla, textinn er þá breytt í ræðu framleiðsla með ræðu myndun. Á þessu stigi er sleppt í ræðu-að-texta þýðing aðstæður.
Læra meira um Microsoft texta til þjónustu ræðu.
Rannsóknir
Skoða nýjustu rannsóknir pappíra frá Microsoft Þýðandi lið.