微軟翻譯器推出中文文學翻譯
閱讀時 古代 中文 在詩歌中,我們常常驚嘆古代作家可以用非常美妙的詞語來描述人、事、物和場景。這是遺留給我們的燦爛文化寶藏。然而,與莎士比亞'這些詩人使用的文學漢語對現代人而言往往難以理解,而其中蘊含的意義和微妙之處也經常被遺忘。
為了解決這個問題,微軟亞洲研究院的研究人員採用了最新的神經機器翻譯技術來訓練文言文與現代中文之間的直接翻譯模型,也因此創造了文言文與現代中文之間的翻譯能力。 超過 90 種其他語言 和 Microsoft Translator 中的方言。目前,文學中文翻譯已整合至 微軟翻譯器應用程式, Azure 認知服務翻譯器, 以及 Microsoft Translator 服務支援的多種 Microsoft 產品。
圖片:出自明代沈周的《西山霧雨圖》。畫上的中國古詩出自 永 北宋劉?這首詩描繪了清明時節的江南春景和社會生活的繁榮。
讓更多人感受到中國傳統文化的魅力
文言文是中國傳統文化的重要載體。自古以來,大量的典籍和文字記錄了中國的歷史和文化。'五千年來豐富深厚的文化。其中積累和蘊含的思想和智慧,值得我們不斷探索和思考。
在機器翻譯的幫助下,遊客現在可以理解寫在歷史建築和古跡上的中國古文和古詩,學生現在多了一個幫助他們學習中文的工具,而從事整理和翻譯古文的研究人員也可以提高工作效率。
微軟亞洲研究院首席研究員張棟棟表示:"從技術角度來看,文言文中文可以被視為一種獨立的語言。一旦文言文與現代漢語之間的翻譯得以實現,文言文與其他語言如英語、法語、德語之間的翻譯也就成了理所當然的事。"
文學中文翻譯 AI 模型的最大困難:訓練資料少
AI 模型訓練最關鍵的元素是資料。只有當資料數量夠多,品質夠高時 可以 你 訓練出更精確的模型。在機器翻譯中,模型的訓練需要雙語資料:原文資料和目標語資料。文學漢語的翻譯非常特殊, 因為它不是日常生活中常用的語言。 因此,與其他語言的翻譯相比,文學漢語翻譯的訓練資料非常少,不利於機器翻譯模型的訓練。
雖然微軟亞洲研究院的研究人員在前期收集了大量公開的文學和現代中文資料,但原始資料並不能直接使用。需要進行資料清理,將來自不同來源、不同格式的資料進行規範化處理,以及將全幅/半寬標點符號, 作為減少無效資料對於模型訓練的干擾。如此一來,實際可用的高品質資料就會進一步減少。
微軟亞洲研究院研究員馬樹明指出,為了減少資料稀疏的問題,研究人員進行了大量的資料綜合與擴增工作,包括
第一,共同特性- 基於對齊和擴展來增加訓練資料的大小。 不同於 中文與其他語言如英文、法文、俄文等之間的翻譯,文言文與現代中文使用相同的字集。利用這個特點,微軟亞洲研究院的研究人員使用創新的演算法,讓機器翻譯可以召回常用字,進行自然對位,再進一步擴展到字、詞組和短句,從而合成大量可用的資料。
第二,變形句子結構以提高機器翻譯的穩健性。 關於 文和詩中的斷句,研究人員加入了許多變體,讓機器在學習古詩時更加全面。對人們來說,即使看到結構異常的句子,例如根據韻律分割成行而非完整句子的詩句,他們仍能將各部分組合起來理解。但對於從未見過這種分段方式的翻譯模型而言,很可能會感到困惑。因此,資料格式的轉換不但可以擴大訓練資料的數量,也可以提高翻譯模型訓練的穩健性。
第三,進行繁簡字翻譯訓練,以增加模型的適應性。 在中文中,繁體字同時存在於文言文和現代中文中。研究人員在訓練模型時,為了提高模型的適應性,除了利用簡體中文的資料外,也加入繁體中文的資料,以及繁簡體字混合的資料。因此,該模型可以同時理解繁體和簡體內容,從而獲得更準確的翻譯結果。
第四,增加外語詞彙的訓練,提高翻譯的準確性。 在將現代漢語翻譯成文言漢語時,經常會出現由外語詞衍生的現代詞和古代漢語中從未出現的新詞,如 「微軟」、「電腦」、「高速鐵路 」等。為了處理這個問題,研究人員訓練了一個小型模型來識別實體。該模型首先翻譯出實體之外的字義,然後將實體填回,以確保機器的準確性'的處理。
圖片:T他 文言 翻譯過程
此外,針對博客、論壇、微博等非正式寫作風格,機器翻譯模型經過了專門訓練,進一步提高了現代漢語與文學漢語之間翻譯的穩健性。
張東東表示:"在現有翻譯系統的基礎上,我們將繼續豐富數據集,改進模型訓練方法,使其更加健壯和通用。未來,該方法可能不僅用於文學漢語翻譯,還可以擴展到其他應用場景"。