跳轉至主要內容
線上翻譯

機器翻譯

什麼是機器翻譯?

機器翻譯系統是使用機器學習技術從其支援的語言中翻譯大量文本的應用程式或線上服務。服務將 "源" 文本從一種語言轉換為不同的 "目標" 語言。

雖然機器翻譯技術背後的概念和使用它的介面相對簡單, 但它背後的科學和技術是極其複雜的, 並彙集了一些前沿技術, 特別是深入學習 (人工智慧)、大資料、語言學、雲計算和 web api。

自二十一世紀十年代代初以來, 一種新的人工智慧技術, 深神經網路 (又稱深度學習), 使得語音辨識技術達到了品質水準, 使得 Microsoft 翻譯團隊能夠將語音辨識與核心文本翻譯技術推出了一種新的語音翻譯技術。

從歷史上看, 該行業使用的主要機器學習技術是統計機器翻譯 (SMT)。SMT 採用先進的統計分析方法, 根據幾句話的語境, 估計出一個詞的最佳可能譯文。自 mid-2000s 以來, SMT 已被所有主要的翻譯服務提供者 (包括微軟) 使用。

神經機器翻譯 (NMT) 的出現, 使翻譯技術發生了根本性的轉變, 從而導致了更高的品質翻譯。此翻譯技術開始為使用者和開發人員部署在 2016年下半年.

SMT 和 NMT 翻譯技術都有兩個共同點:

  1. 兩者都需要大量的前人類翻譯內容 (多達數以百萬計的翻譯句子) 來訓練系統。
  2. 既不作為雙語詞典, 根據可能的翻譯清單翻譯單詞, 但根據句子中使用的單詞的上下文進行翻譯。

什麼是翻譯?

翻譯和語音服務,部分 認知服務 api 的集合, 是來自 Microsoft 的機器翻譯服務。

文本翻譯

翻譯自 2007 年以來一直被 Microsoft 集團使用,自 2011 年以來可作為 API 提供給客戶。翻譯在微軟內部被廣泛使用。它包含在產品當地語系化、支援和在線通信團隊中。同樣的服務也可以訪問,無需額外費用,從熟悉的微軟產品,如 必應柯塔娜微軟邊緣辦公室SharepointSkype和 Yammer.

翻譯器可用於任何硬體平臺上的 Web 或用戶端應用程式,以及任何作業系統執行語言翻譯和其他與語言相關的操作,如語言檢測、文本到語音或字典。

利用行業標準 REST 技術, 開發人員將源文本 (或語音轉換的音訊) 發送給服務, 並帶有一個指示目的語言的參數, 並且該服務會將轉換後的文本發送回用戶端或 web 應用程式以使用。

翻譯服務是託管在Microsoft資料中心中的Azure服務,它受益於其他Microsoft雲服務也獲得的安全性、可擴充性、可靠性和不間斷可用性。

語音翻譯

翻譯語音翻譯技術於 2014 年末從 Skype 翻譯開始推出,自 2016 年初開始作為面向客戶的開放 API 提供。它集成到微軟翻譯的即時功能,Skype,Skype會議廣播,以及微軟翻譯應用程式的Android和iOS。

語音轉換現在可通過 Microsoft 語音 (語音辨識、語音轉換和語音合成 (文本到語音) 的端到端集提供。

文本翻譯是如何工作的?

文本翻譯主要有兩種技術: 遺留一項、統計機器翻譯 (SMT) 和新的世代一、神經機器翻譯 (NMT)。

統計機器翻譯

翻譯人員對統計機器翻譯(SMT)的實施是建立在微軟十多年的自然語言研究基礎上的。現代翻譯系統沒有編寫手工製作的規則來在語言之間進行翻譯,而是將翻譯視為從現有的人工翻譯中學習語言之間文本轉換以及利用應用統計和機器學習方面的最新進展的問題。

所謂的"平行語"在巨大的比例上充當了現代羅塞塔石碑,為許多語言對和域提供了詞彙、短語和慣用翻譯。統計建模技術和高效的演算法可幫助計算機解決破譯問題(檢測訓練數據中的源語言和目標語言之間的對應關係)和解碼(找到新輸入句子的最佳翻譯)。翻譯將統計方法的力量與語言資訊相結合,生成更廣義的模型,併產生更易於理解的翻譯。

由於這種方法不依賴于字典或語法規則, 它提供了短語的最佳翻譯, 它可以使用給定單詞周圍的上下文, 而不是嘗試執行單個單詞翻譯。對於單詞翻譯, 雙語詞典是開發的, 可以通過 www.bing.com/translator.

神經機器翻譯

不斷改進翻譯非常重要。然而,自 2010 年代中期以來,隨著 SMT 技術,性能改進趨於穩定。通過利用微軟的人工智慧超級計算機,特別是微軟認知工具組的規模和力量,翻譯機現在提供神經網路(LSTM) 為基礎的翻譯, 使翻譯品質的新十年得以改進。

這些神經網路模型可透過 Azure 上的語音服務以及透過使用「通用」類別 ID 的文本 API 適用於所有語音語言。

與傳統的 SMT 相比, 神經網路翻譯在如何執行上有著根本性的差異。

下面的動畫描述了神經網路翻譯所經過的各種步驟來翻譯句子。由於這種方法, 翻譯將考慮到整個句子的上下文, 而不是只有幾個字滑動視窗, SMT 技術使用, 將產生更多的流體和人翻譯的前瞻性翻譯。

在神經網路訓練的基礎上, 每個單詞都按照一個500維向量 (a) 進行編碼, 它代表了特定語言對 (如英語和漢語) 中的獨特特性。基於用於訓練的語言對, 神經網路將自我定義這些維度應該是什麼。他們可以編碼簡單的概念, 如性別 (女性, 男性, 中性), 禮貌水準 (俚語, 休閒, 書面, 正式, 等等), 類型的詞 (動詞, 名詞等), 但也任何其他不明顯的特點, 從訓練資料派生。

神經網路翻譯的步驟如下:

  1. 每個詞, 或者更具體地說, 代表它的500維向量, 通過第一層的 "神經元", 它將在一個1000維向量 (b) 中編碼, 在句子中的其他單詞的上下文中表示這個詞。
  2. 一旦所有單詞都被編碼成這些1000維向量, 這個過程就重複了幾次, 每個層允許更好地微調這個詞在完整句子上下文中的這個1000維表示 (與 SMT 相反)。技術, 只能考慮到3到5字視窗)
  3. 最後的輸出矩陣然後使用的注意層 (即軟體演算法), 將使用這最後的輸出矩陣和以前翻譯的詞的輸出, 以定義哪個詞, 從源句, 應該翻譯下。它還將使用這些計算來潛在地丟棄目的語言中不必要的單詞。
  4. 解碼器 (平移) 層, 將所選單詞 (或更具體地說是在完整句子的上下文中表示這個詞的1000維向量) 以其最合適的目的語言等價。最後一層 (c) 的輸出隨後被回饋到注意層中, 以計算從源語句中的下一個單詞應該被翻譯。

在動畫中描述的示例中, 上下文感知的1000維模型 ""將編碼的名詞 (房子) 是法語中的一個女性詞 (la 故居).這將允許適當的翻譯為 ""是"洛杉磯"而不是""(單數, 男性) 或"萊斯"(複數) 一旦它到達解碼器 (翻譯) 層。

注意演算法也將根據先前翻譯的單詞 (在本例中) 計算。"), 下一個要翻譯的詞應該是主題 ("房子"), 而不是一個形容詞 ("藍色").在可以做到這一點, 因為系統瞭解到, 英語和法語顛倒的順序, 這些單詞的句子。它也會計算, 如果形容詞是 ""而不是顏色, 它不應該反轉他們 ("大房子"=="格蘭德故居").

多虧了這種方法, 在大多數情況下, 最終輸出比基於 SMT 的翻譯更流暢, 更接近人類翻譯。

語音翻譯是如何工作的?

譯者也能夠翻譯語音。該技術在翻譯器即時功能中公開(http://translate.it), 翻譯應用程式, skype 翻譯, 並最初是提供僅通過 Skype 翻譯功能和在微軟翻譯應用程式的 iOS 和 Android, 這一功能現在可以向開發人員提供最新版本的開放Azure 門戶上可用的基於 REST 的 API。

雖然從現有的技術磚塊中構建語音翻譯技術似乎是一個直接的向前過程, 但它需要的工作要比簡單地插入現有的 "傳統" 人機語音辨識要多得多。引擎到現有的文本翻譯一。

為了正確地將 "源" 語音從一種語言轉換為不同的 "目標" 語言, 系統將進行四步過程。

  1. 語音辨識, 將音訊轉換為文本
  2. TrueText: 一種將文本正常化以使其更適合翻譯的 Microsoft 技術
  3. 翻譯通過上面描述的文本翻譯引擎, 但關於特別開發的翻譯模型為真實生活口語談話
  4. 文本到語音, 必要時, 產生翻譯的音訊。

自動語音辨識 (ASR)
自動語音辨識 (ASR) 是使用一個神經網路 (NN) 系統進行訓練, 分析成千上萬小時的傳入音訊語音。這個模型是通過人與人之間的交互而不是人與機器的命令進行訓練的, 它產生了為正常對話而優化的語音辨識。為了實現這一目標, 需要更多的資料以及比傳統的人對機 ASRs 更大的 DNN。

瞭解更多關於 微軟對文字服務的演講.

TrueText
當人類與其他人交談時, 我們不會像我們經常認為的那樣完美、清晰或整齊地說話。使用 TrueText 技術, 文本轉換為更密切地反映使用者意圖通過刪除語音 disfluencies (填充字), 如 "um", "ah" s, "和" s, "像" s, 結巴和重複。通過添加句子分隔符號、正確的標點和大寫, 也可以使文本更易於閱讀和翻譯。為了達到這些結果, 我們用了數十年的語言技術工作, 我們從翻譯公司發展到創建 TrueText。下面的關係圖通過一個真實的示例描述了各種轉換 TrueText 操作以正常化此文本。

 

翻譯
然後將文本轉換為任何 語言和方言 由翻譯人員支援。

使用語音翻譯 API (作為開發人員) 或語音翻譯應用程式或服務中的翻譯是以最新的基於神經網路的翻譯為基礎的, 用於所有語音輸入支援的語言 (請參見 在這裡 完整清單)。這些模型還通過擴展當前的, 主要是書面文本訓練的翻譯模型來建立, 用更多的口語語料庫構建一個更好的口語會話類型的翻譯模式。這些模型也可通過 "語音" 標準類別 傳統的文本翻譯 API。

對於任何不受神經翻譯支援的語言, 都執行傳統的 SMT 翻譯。

文本到語音
如果目的語言是18支援的文本到語音的一種 語言, 並且用例需要音訊輸出, 然後使用語音合成將文本轉換為語音輸出。在語音到文本翻譯方案中省略此階段。

瞭解更多關於 微軟的文本到語音服務.

研究


此服務屬於 Azure AI 服務