跳轉至主要內容
線上翻譯

微軟翻譯博客

必應的性別翻譯解決了翻譯中的偏見

性別消除偏見
性別符號的 3D 渲染。

我們很高興地宣佈,從今天開始,從英語翻譯成西班牙文、法語或義大利語時,可以使用男性和女性的替代翻譯。您可以在兩者中試用此新功能 必應搜索必應翻譯 垂直。

在過去的幾年中,機器翻譯(MT)領域因轉換器模型的出現而發生了革命性的變化,從而大大提高了品質。然而,為捕獲從現實世界收集的數據的統計屬性而優化的模型無意中學習甚至放大了該數據中發現的社會偏見。

我們的最新版本是朝著減少這些偏見之一邁出的一步,特別是MT系統中普遍存在的性別偏見。必應翻譯器總是為輸入句子生成單個翻譯,即使翻譯可能有其他性別變體,包括女性和男性變體。根據 微軟負責任的 AI 原則,我們希望確保我們提供正確的替代翻譯,並對所有性別更具包容性。作為這一旅程的一部分,我們的第一步是提供女性和男性的翻譯變體。

性別在不同的語言中表達不同。例如,在英語中,律師一詞可以指男性或女性,但在西班牙文中, 阿博加達 會指女律師,而 阿博加多 會指男性。在源句子中沒有關於名詞(如“律師”)性別的信息的情況下,機器翻譯模型可能會為目標語言中的名詞選擇任意性別。通常,這些任意的性別分配符合刻板印象,使有害的社會偏見永久化(Stanovsky 等人,2019 年;Ciora 等人,2021 年),並導致翻譯不完全準確。

在下面的示例中,您注意到在將性別中立的句子從英語翻譯成西班牙文時,翻譯的文本遵循刻板的性別角色,即律師被翻譯為男性。

帶有性別偏見的翻譯
將英文文本“讓我們就此問題徵求律師的意見”翻譯成具有性別偏見的西班牙文的屏幕截圖。

由於源句中沒有上下文暗示律師的性別,因此在假定為男性或女性律師的情況下製作翻譯都是有效的。現在,必應翻譯器生成具有女性和男性形式的翻譯。

將性別模糊的英文文本翻譯成西班牙文
英文文本“讓我們就此問題徵求律師的意見”翻譯成西班牙文的屏幕截圖,具有針對性別的翻譯。

系統設計

我們的目標是設計我們的系統,以滿足以下提供性別替代方案的關鍵標準:

  1. 女性和男性變體應該有最小的差異,除了傳達性別所需的差異。
  2. 我們希望涵蓋廣泛的句子,其中有多種性別可供選擇。
  3. 我們希望確保翻譯保留原始源句子的含義。

檢測性別歧義

為了準確檢測源文本中的性別歧義,我們利用共指模型來分析包含動畫名詞的輸入。例如,如果給定的輸入文本包含一個性別中立的職業詞,我們只希望在其性別無法由句子中的其他資訊確定時為其提供性別替代詞。例如:將英語句子「律師在酒店大堂遇到她的司機」翻譯成法語,我們可以確定律師是女性,而司機的性別是未知的。

將性別模糊的英文文本翻譯成法語
將英文文本「律師在酒店大堂會見了她的司機」翻譯成法語的屏幕截圖。

生成替代翻譯

當源句子性別模糊時,我們會檢查翻譯系統的輸出,以確定是否可以進行替代的性別解釋。如果是這樣,我們將繼續確定修改翻譯的最佳方式。我們首先通過重寫原始翻譯來構建一組候選目標翻譯。我們應用基於依賴關係的語言約束,以確保提議的替代方案的一致性,並修剪錯誤的候選者。

然而,在許多情況下,即使在應用了我們的約束之後,我們也為性別替代翻譯留下了多個候選重寫。為了確定最佳選擇,我們通過翻譯模型對每個候選人進行評分來評估每個候選人。通過利用良好的性別重寫也將是對源句子的準確翻譯這一事實,我們能夠確保最終輸出的高精度。

性別再變形的系統設計
顯示性別重新變化的系統設計的圖表。

在 Azure 機器學習中利用託管連線終結點

必應中的性別替代功能託管在 託管聯機終結點 在 Azure 機器學習中。託管連線終結點提供了一個統一的介面,用於以統包方式調用和管理 Microsoft 託管計算上的模型部署。它們使我們能夠利用可擴展且可靠的端點,而無需擔心基礎架構管理。此推理環境還能夠以低延遲處理大量請求。通過在 Azure 機器學習中使用託管推理功能,我們創建和部署具有最新框架和技術的性別消除服務的能力已大大提高。通過利用這些功能,我們能夠保持較低的COGS(銷售成本),並確保直接的安全性和隱私合規性。

您如何做出貢獻?

為了促進在減少機器翻譯中的性別偏見方面取得進展,我們正在發佈一個測試語料庫,其中包含從英語到西班牙文、法語和義大利語的性別模糊翻譯範例。每個英語源句子都附有多個翻譯,涵蓋每個可能的性別變化。

我們的測試集具有挑戰性,形態豐富且語言多樣化。這個語料庫在我們的開發過程中發揮了重要作用。它是在具有豐富翻譯經驗的雙語語言學家的幫助下開發的。我們還將發佈一份技術論文,詳細討論測試語料庫以及評估方法和工具。

GATE:性別模糊翻譯示例的挑戰 – 論文

GATE:性別模糊翻譯範例的挑戰集 – 測試集

前進的道路

通過這項工作,我們的目標是在源性別不明確的情況下提高機器翻譯輸出的品質,並促進開發更好、更具包容性的自然語言處理(NLP)工具。我們最初的版本側重於從英語翻譯成西班牙文、法語和義大利語。展望未來,我們計劃擴展到新的語言對,並涵蓋其他場景和偏見類型。

學分:

蘭吉塔·奈克、斯賓塞·拉裡克、桑達爾·普德爾、瓦倫·馬圖爾、傑什萬斯·庫瑪律·錢德拉拉、查蘭·莫漢、李·施瓦茨、史蒂文·阮、阿米特·巴格瓦特、維沙爾·喬杜里。