Pāriet uz uz uz saturu
Tulkotājs
Šī lapa ir automātiski tulkots, ko Microsoft Translator ' s mašīntulkošanas pakalpojumu. Uzziniet vairāk

Mašīntulkošanas

Kas ir mašīntulkošana?

Mašīntulkošanas sistēmas ir lietojumprogrammas vai tiešsaistes pakalpojumi, kas izmanto Mašīnmācīšanās tehnoloģijas, lai tulkotu lielus teksta apjomus no un uz kādu no atbalstītajām valodām. Pakalpojums pārveido "avota" tekstu no vienas valodas uz citu "mērķa" valodu.

Lai gan mašīntulkošanas tehnoloģiju koncepcijas un saskarnes to izmantošanai ir salīdzinoši vienkāršas, tās pamatā ir ļoti sarežģītas zinātnes un tehnoloģijas un apvieno vairākas vadošās tehnoloģijas, īpaši padziļinātas mācības ( intelektu), lielajiem datiem, lingvistiku, mākoņdatošanu un tīmekļa API.

Kopš sākuma 2010s, jaunu mākslīgā intelekta tehnoloģiju, dziļo neironu tīkliem (pazīstams arī kā dziļas mācības), ir ļāvusi tehnoloģiju runas atpazīšana, lai sasniegtu kvalitātes līmeni, kas ļāva Microsoft Translator komanda apvienot runas atpazīšana ar tās galveno teksta tulkošanas tehnoloģiju, lai uzsāktu jaunu runas tulkošanas tehnoloģiju.

Vēsturiski primārais Mašīnmācīšanās paņēmiens, kas tika izmantots šajā industrijā, bija statistikas Mašīntulkošana (SMT). SMT izmanto uzlabotas statistikas analīzi, lai novērtētu labāko iespējamo tulkojumu vārdu, ņemot vērā dažu vārdu kontekstā. SMT ir izmantota kopš mid-2000s visiem lielākajiem tulkošanas pakalpojumu sniedzējiem, tostarp Microsoft.

No neironu mašīntulkošanas (NMT) Advent izraisīja radikālas pārmaiņas tulkošanas tehnoloģiju, kā rezultātā daudz augstākas kvalitātes tulkojumi. Šī tulkošanas tehnoloģija sāka izvietot lietotājiem un izstrādātājiem pēdējā daļa ir 2016.

Gan SMT, gan NMT tulkošanas tehnoloģijās ir divi kopīgi elementi:

  1. Gan prasa lielu daudzumu pirms cilvēka tulkots saturs (līdz miljoniem iztulkotu sodu), lai apmācītu sistēmas.
  2. Ne darboties kā divvalodu vārdnīcas, tulkojot vārdus, kas balstīti uz potenciālo tulkojumu sarakstu, bet tulkot, pamatojoties uz teikumā lietoto vārdu kontekstu.

Kas ir tulkotājs?

Tulkotāju un runas pakalpojumu daļa Kognitīvie pakalpojumi API kolekcija ir mašīntulkošanas pakalpojumi no korporācijas Microsoft.

Teksta tulkošana

Translator Microsoft grupas izmanto kopš 2007. gada, un kopš 2011. gada tas ir pieejams kā API klientiem. Tulkotājs tiek plaši izmantots microsoft. Tas ir iekļauts visās produktu lokalizācijas, atbalsta un tiešsaistes saziņas komandās. Šis pats pakalpojums bez papildu maksas ir pieejams arī no pazīstamiem Microsoft produktiem, piemēram, BingCortanaMicrosoft EdgeOfficeSharepointSkypeun Yammer.

Tulkotāju var izmantot tīmekļa vai klienta lietojumprogrammās jebkurā aparatūras platformā un ar jebkuru operētājsistēmu, lai veiktu valodas tulkošanu un citas ar valodu saistītas darbības, piemēram, valodas noteikšanu, teksta izrunu vai vārdnīcu.

Piesaistot nozares standarta REST tehnoloģiju, attīstītājs nosūta avota tekstu (vai audio runas tulkojums) uz pakalpojumu ar parametru, kas norāda mērķa valodu, un pakalpojums nosūta atpakaļ tulkoto tekstu klienta vai tīmekļa lietojumprogramma izmantot.

Pakalpojums Translator ir Azure pakalpojums, kas tiek viesots Microsoft datu centros, un tas ir pieejams arī no drošības, mērogojamības, uzticamības un bezpieturu pieejamības, ko saņem citi Microsoft mākoņpakalpojumi.

Runas tulkošana

Tulkotāju runas tulkošanas tehnoloģija tika palaista 2014. gada beigās, sākot ar Skype Translator, un kopš 2016. gada sākuma ir pieejama kā atvērta API klientiem. Tas ir integrēts Microsoft Translator tiešraides līdzekļā, Skype, Skype sapulču apraidē un Microsoft Translator programmās Android un iOS ierīcēm.

Runas translēšana tagad ir pieejama, izmantojot Microsoft runas, pilnībā pielāgojamu runas pazīšanas, runas tulkošanas un runas sintēzes (tekstrunas) pakalpojumu kopa.

Kā darbojas teksta tulkošana?

Ir divas galvenās tehnoloģijas, ko izmanto teksta tulkošana: mantojums vienu, statistikas Mašīntulkošana (SMT), un jaunākās paaudzes vienu, neironu Machine translation (NMT).

Statistikas mašīntulkošana

Translator ' s ieviešana statistikas mašīntulkošanas (SMT) ir balstīts uz vairāk nekā desmit gadus no dabas valodas pētniecība Microsoft. Tā vietā, lai rakstītu ar rokām izstrādātu noteikumu, kas tulkotu starp valodām, modernās tulkošanas sistēmas ir tulkotas kā problēma, kas saistīta ar teksta pārveidošanu starp valodām no esošiem cilvēku tulkojumiem, un tas veicina nesenos sasniegumus lietišķās statistikas un Mašīnmācīšanās procesā.

Tā saukto "paralēlo corpora" darbojas kā mūsdienu Rosetta akmens masveida proporcijas, kas sniedz vārdu, frāzi, un bagāts vārdkopām tulkojumi kontekstā daudziem valodu pāriem un jomās. Statistiskās modelēšanas metodes un efektīvi algoritmi palīdz datoram risināt problēmu, kas saistīta ar atšifrējumu (noteikt atbilstību starp avota un mērķa valodu apmācības datos) un dekodēšana (meklējot labāko tulkojumu jaunam ievades teikumam). Tulkotājs apvieno statistikas metožu pilnvaras ar lingvistisko informāciju, lai ražotu modeļus, kas vispārināt labāk un noved pie saprotamiem tulkojumiem.

Pateicoties šai pieejai, kas nepaļaujas uz vārdnīcām vai gramatikas noteikumiem, tā nodrošina vislabāko frāžu tulkojumu, kur tā var izmantot kontekstu ap doto vārdu, salīdzinot ar mēģinot veikt viena vārda tulkojumus. Par vienu vārdu tulkojumus, divvalodu vārdnīca tika izstrādāta un ir pieejama, izmantojot www.Bing.com/Translator.

Neironu mašīntulkošana

Nepārtraukti uzlabojumi tulkošanas ir svarīgi. Tomēr veiktspējas uzlabojumus ir griesti ar SMT tehnoloģiju, jo mid-2010s. Piesaistot mērogu un jaudu Microsoft AI superdatoru, īpaši Microsoft kognitīvo Toolkit, tulkotājs tagad piedāvā neironu tīklu ("LSTM"), kas balstīta uz tulkojumu, kas dod iespēju jaunai tulkošanas kvalitātes uzlabošanas dekādei.

Šīs neironu tīkla modeļi ir pieejami visas runas valodas, izmantojot runas pakalpojums Azure un teksta API, izmantojot "generalnn" kategorijas ID.

Neironu tīklu tulkojumi būtiski atšķiras ar to, kā tie tiek veikti, salīdzinot ar tradicionālo SMT ones.

Šādu animāciju attēlo dažādus soļus neironu tīkla tulkojumi iet cauri tulkot teikumu. Sakarā ar šo pieeju, tulkojumu ņems kontekstā pilnu teikumu, salīdzinot tikai dažus vārdus bīdāmās logs, ka SMT tehnoloģija izmanto un radīs vairāk šķidruma un cilvēka-tulkots meklē tulkojumi.

Pamatojoties uz neironu tīkla apmācību, katrs vārds tiek kodēts pa 500-dimensiju vektors (a), kas attēlo tā unikālās īpašības konkrētā valodu pāra (piemēram, angļu un ķīniešu). Pamatojoties uz valodu pāriem, ko izmanto apmācību, neironu tīkls pats noteikt, kas šiem izmēriem jābūt. Tie varētu kodēt vienkāršus jēdzienus kā dzimums (sievišķīga, vīrišķīga, neitrāla), pieklājības līmenis (slengs, gadījuma, rakstveida, formāls, uc), vārda veidu (verb, lietvārds, uc), bet arī jebkuru citu nav acīmredzamas īpašības, kas iegūti no mācību datiem.

Darbības neironu tīkla tulkojumi iet caur ir šādi:

  1. Katru vārdu, vai precīzāk 500-dimensija vektors, kas pārstāv to, iet caur pirmā kārta "neironiem", kas iekodēt to 1000-dimensija vektors (b), kas pārstāv vārdu, kas saistībā ar citiem vārdiem teikumā.
  2. Kad visi vārdi ir kodēti vienu reizi šajos 1000-dimensiju vektori, process tiek atkārtots vairākas reizes, katrs slānis ļauj labāk precizējot šo 1000-dimensiju pārstāvību vārdu saistībā ar pilnu teikumu (pretēji SMT tehnoloģiju, kas var ņemt vērā tikai 3 līdz 5 vārdu logs)
  3. Pēc tam galīgo izvades matricu izmanto uzmanības slānī (t.i., programmatūras algoritms), kas izmantos gan šo galīgo izvades matricu, gan iepriekš tulkoto vārdu izvadi, lai definētu, kurš vārds no avota teikuma jātulko tālāk. Tas arī izmantos šos aprēķinus, lai potenciāli piliens nevajadzīgu vārdus mērķa valodā.
  4. Dekodētājs (Translation) slānis, pārveido izvēlēto vārdu (vai, precīzāk, 1000-dimensiju vektors pārstāv šo vārdu saistībā ar pilnu teikumu) tās vispiemērotāko mērķa valodas ekvivalents. Izejas šo pēdējo kārtu (c), tad baro atpakaļ uzmanības slāni, lai aprēķinātu, kas Nākamais vārds no avota teikums būtu jātulko.

Animācijā attēlotajā piemērā konteksta 1000 dimensijas modelis "uz", tiks kodēts, ka lietvārds (Māja) ir sievišķīgs vārds franču valodā (La Maison). Tas ļaus veikt atbilstošu tulkojumu "uz"būt"La"un nevis"Le"(vienskaitļa, vīrišķā) vai"Les"(daudzskaitlī), kad tas sasniedz dekodētāja (translējot) slāni.

Uzmanības algoritms aprēķinās, pamatojoties uz iepriekš tulkoto (-OS) vārdu (-iem) (šajā gadījumā "uz"), ka nākamajam tulkojamo vārdu vajadzētu būt objektam ("Māja"), nevis īpašības vārds ("Zils"). In var sasniegt, jo sistēma uzzināja, ka angļu un franču invertēt secībā šos vārdus teikumos. Tas arī aprēķināja, ka, ja īpašības vārds būtu "Liels", nevis krāsu, ka tas nedrīkst invertēt ("lielās mājas"= >"La Grande Maison").

Pateicoties šai pieejai, gala produkcija lielākajā daļā gadījumu ir plūstošāka un tuvāka cilvēka tulkošanai nekā uz SMT balstītu tulkojumu.

Kā darbojas runas tulkošana?

Tulkotājs spēj arī tulkot runu. Šī tehnoloģija ir pakļauta tulkotāju Live funkcijai (http://translate.it), Translator programmas, Skype Translator un ir arī sākotnēji pieejama tikai ar Skype Translator funkciju un Microsoft Translator Apps iOS un Android, šī funkcionalitāte ir pieejama izstrādātājiem ar jaunāko versiju atvērtā REST-Based API pieejams Azure portālā.

Lai gan tas var šķist taisni uz priekšu process pēc pirmā acu uzmetiena, lai izveidotu runas tulkošanas tehnoloģiju no esošajiem tehnoloģiju ķieģeļiem, tas prasa daudz vairāk darba, nekā vienkārši pieslēgt esošo "tradicionālo" cilvēka-to-Machine runas atpazīšana esošo teksta tulkojumu vienu.

Lai pareizi tulkot "avots" runu no vienas valodas uz citu "mērķa" valodu, sistēma iet cauri četru soļu process.

  1. Runas pazīšana, lai pārvērstu audio tekstu
  2. TrueText: Microsoft tehnoloģija, kas normalizē tekstu, lai tā būtu piemērotāka tulkošanai
  3. Tulkošana, izmantojot teksta tulkošanas dzinējs aprakstīts iepriekš, bet par tulkošanas modeļus speciāli izstrādātas reālajā dzīvē runā sarunas
  4. Teksta-runas ievade, ja nepieciešams, lai iegūtu tulkoto audio.

Automātiskā runas pazīšana (ASR)
Automātiskā runas pazīšana (ASR) tiek veikta, izmantojot neironu tīklu (NN) sistēmu, kas apmācīta, analizējot tūkstošiem stundu ienākošo audio runu. Šis modelis ir apmācīti par cilvēka-to-cilvēku mijiedarbība, nevis cilvēka-to-Machine komandas, kas ražo runas atpazīšana, kas ir optimizēta normālas sarunas. Lai to panāktu, ir nepieciešams daudz vairāk datu, kā arī lielāks DNN nekā tradicionālais "cilvēka-mašīnas" ASRs.

Uzziniet vairāk par Microsoft runas par teksta pakalpojumiem.

Teksts_ja_patiess
Kā cilvēki sarunātos ar citiem cilvēkiem, mēs nerunāju par pilnīgi, skaidri vai glīti, kā mēs bieži domājam, ka mēs darām. Ar TrueText tehnoloģiju literālis teksts tiek pārveidots, lai precīzāk atspoguļotu lietotāja nodomu, novēršot runas disfluentumus (pildvielas vārdi), piemēram, "um" s, "ah" s "un" s ", piemēram," s, stutters un atkārtojumus. Teksts ir arī padarīt salasāmāks un tulkojamā, pievienojot teikuma pārtraukumus, pareizu pieturzīmēm, un lielo burtu. Lai sasniegtu šos rezultātus, mēs izmantojām darba desmitgades par valodu tehnoloģijām, mēs izstrādājām no Translator, lai izveidotu TrueText. Tālāk redzamā diagramma attēlo, izmantojot reālās dzīves piemēru, dažādas transformācijas TrueText darbojas, lai normalizētu šo literāļu tekstu.

 

Tulkošanas
Pēc tam teksts tiek tulkots kādā no valodas un dialektus atbalsta tulkotājs.

Tulkojumi, izmantojot runas tulkošanas API (kā izstrādātājs) vai runas tulkošanas lietotnē vai pakalpojumā, tiek darbināti ar jaunākajiem Neural tīkla tulkojumiem, kas paredzēti visām atbalstītajām valodām (skatiet šeit pilns saraksts). Šie modeļi tika būvēti, paplašinot pašreizējo, galvenokārt rakstisku tekstu apmācītu tulkošanas modeļus, ar vairāk runā-Text corpora veidot labāku modeli runāto sarunu veidu tulkojumus. Šie modeļi ir pieejami arī "runas" standarta kategorija tradicionālo teksta tulkošanas API.

Par visām valodām, ko neatbalsta neironu translation, tradicionālo SMT translation tiek veikta.

Teksts uz runu
Ja mērķa valoda ir viena no 18 atbalstītajām teksta-runas Valodas, un lietošanas gadījumā ir nepieciešama audio izeja, tad teksts tiek pārvērsts runas izvadē, izmantojot runas sintēzi. Šajā posmā runas-teksta tulkošanas scenārijos ir izlaists.

Uzziniet vairāk par Microsoft teksta uz runas pakalpojumiem.

Pētniecības


Šis pakalpojums ir daļa no Azure AI pakalpojumi