此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

Azure AI 自定义翻译器神经词典:提供更高的术语翻译质量 

今天,我们非常兴奋地宣布发布神经词典,这是我们平台翻译质量的重大改进。在这篇博文中,我们将探讨神经词典功能。

导言  

神经字典是我们 动态词典短语词典 Azure AI 翻译器的功能。这两种功能都允许我们的用户通过为特定术语或短语提供自己的翻译来定制翻译输出。我们以前的方法使用逐字词典,这是一种精确的查找和替换操作。对于可能包含一个或多个术语翻译的句子,神经字典通过让机器翻译模型调整术语和上下文来生成更流畅的翻译,从而提高了翻译质量。同时,它还能保持较高的术语翻译准确率。  

下面的英语-德语示例展示了在请求自定义术语翻译时两种方法在翻译输出方面的差异: 

输入:   Basic Knowledge of <mstrans:dictionary translation=”regelmäßiges Testen”>Periodic Maintenance</mstrans:dictionary>   
逐字字典:   基础 Regelmäßiges 测试EN 
神经字典   基础 描述 RegelmäßigEN 测试确保 

提高质量 

下图显示了新功能在汽车行业常见的公开术语测试集上的显著改进(见下图)。https://aclanthology.org/2021.eacl-main.271)、健康(https://aclanthology.org/2021.emnlp-main.477)和 Covid-19 域 (https://aclanthology.org/2021.wmt-1.69) 使用我们的通用翻译模型。 

我们还对 Custom Translator 平台和神经词典模型进行了一系列客户评估。我们测量了有神经词典扩展和没有神经词典扩展的模型在客户数据上的翻译质量收益。五位客户参与了评估,涉及不同业务领域的德语、西班牙语和法语。

下图显示了 COMET 教育领域的英德、英西和英法翻译质量;左侧为一般模型,右侧为定制模型。蓝色条代表不使用神经词典的一般翻译质量,橙色条代表使用神经词典的翻译质量。这些是整个测试集的总体平均改进。对于包含一个或多个客户词典词条(介于 19% 和 63% 之间)的语段,改进幅度高达 +6.3 到 +12.9 COMET 点。 

 支持的语言  

  • 目前可用(截至 2023 年 12 月 6 日):简体中文、法文、德文、意大利文、日文、韩文、波兰文、俄文、西班牙文和瑞典文 - 与英文互译。  
  • 我们将在未来增加更多内容。有关更新,请参阅 自定义翻译器发布说明 

神经词典的工作原理 

在处理自定义术语翻译时,神经字典不会采用精确的查找和替换操作。相反,它会以最适合整个上下文的方式翻译词典中的术语或短语。这意味着术语可以有转折或不同的用词,或者周围的词语可以调整,从而产生更流畅、更连贯的翻译。  

例如,我们有以下英语输入句子,在不使用任何词典短语的情况下,将其翻译成波兰语如下:  

输入:   我们需要一个可以理解的快速解决方案。  
标准翻译:   您可以在这里找到您需要的信息。  

如果您想确保 "解决方案 "被翻译成"alternatywa"(英语中为 "an alternative"),可以添加动态词典注释来实现:  

输入:   We need a fast <mstrans:dictionary translation=”alternatywa“>solution</mstrans:dictionary> that will be understandable.  
逐字字典:   请点击此处自尊心 alternatywa, który ()()()()()()y.  
神经字典   请点击此处ej 替代方案wy, któr一个 ()()()()()()一个.  

前一种方法产生的输出不流畅,因为违反了语法性别一致性。神经词典通过以下方式产生流畅的输出:a) 对要求替换的词进行转折,b) 必要时改变周围的词。在某些情况下,它还可以改变词性,如下面的例子:  

输入:   This company’s <mstrans:dictionary translation=”akcje“>stock</mstrans:dictionary> is cheap.  
逐字字典:   akcje Tej firmy 笑话 tani.  
神经字典   Akcje Tej firmy s tanie.   

神经词典希望所请求的术语翻译以其基本语法形式提供。也支持多词术语,但应作为名词短语提供,即单词不应独立词法化(例如,"爱沙尼亚议会选举 "比 "爱沙尼亚议会选举 "更好)。 

如何启用神经词典 

对于上述所有受支持的语言,神经词典可立即提供给使用 Custom Translator 平台的所有客户,其中包括 短语词典.要启用神经字典,需要进行完全(或仅字典)自定义模型再训练。 

 建议 

  1. 如果您想确保在使用神经词典时更频繁地使用短语词典条目,可以考虑以各种形式将短语条目与来源部分一起添加。In the above example, next to “solution _ alternatywa",您可能还需要添加以下条目:"解决方案 _ alternatywa","解决方案_ 替代方法","解决方案 _ 替代方法".  
  2. 如果在使用短语词典时,目标是确保将特定单词或短语 "原样 "从输入文本复制到输出译文,则应考虑执行逐字词典,因为它可能更加一致。   
  3. 避免在短语词典中添加常见或经常出现的单词或短语的译文。  

要了解更多关于Custom Translator以及它如何帮助你的企业在全球市场上蓬勃发展的信息,请从以下方面开始 自定义翻译器初学者指南. 

你可以用Microsoft Custom Translator做什么 

用你的领域特定的术语建立自定义模型,并使用 微软翻译 API. 

使用 微软自定义翻译器 与你的翻译解决方案,以帮助你的业务全球化和改善客户互动。 

欲了解更多信息,请访问 微软翻译机业务解决方案自定义翻译器发布说明.