此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

测试翻译质量: 访客博客

anand chakravarty 是机器翻译团队中的 set, 在过去2.5年中一直在 microsoft 工作了 8年, 并且是 mt 团队中的第一个产品测试人员 ("仍在测试 mt:-) 方面很开心")。 今天的嘉宾博客是关于测试翻译质量的。 

—————————————————————————————————————

在谈到验证翻译系统的质量时, 首先想到的一点是, 你如何衡量翻译的质量, 或者准确地衡量翻译的准确性?使用计算机在人类语言之间进行翻译是一个几乎有半个世纪历史的领域。该领域具有足够的挑战性, 即使是目前最好的机器翻译系统, 也没有接近获得完全令人满意的语言质量。

部分挑战在于人类为了理解 s分支/书面文本的含义而处理的许多不同的数据点。有语法、解析、语义、上下文、消歧、重新排序, 所有这些, 更多的是, 都进入了对一个句子的理解。而这只是1种语言中的句子。现在考虑应用所有这些方法以另一种语言重建句子, 并使其同样有意义。

一些例子可能有助于使这一点更加明确。"2 0 0 8年奥运会" 一词相当明确。同样, 人们可能会预期 "2008年大选" 一词指的是美国的总统选举。不过, 如果用户来自, 比如加拿大, 更有可能指的是那里的地方选举。

一个更一般的, 因此也是更常见的例子, 就是一个像 "音符错了" 这样的句子。"注意" 一词是指信息性信息还是音乐术语?正确的翻译取决于上下文。使用更多的上下文, 您获得更准确翻译的机会就会得到提高。然而, 这是有代价的: 系统试图获得的上下文越多, 其性能就越慢。明智的运输决策包括在提高翻译准确性和向用户提供可行的翻译结果之间取得适当的平衡。当然, 两者都很重要。关键是要了解你在改进方面的导向方向, 这取决于最终结果对用户的帮助程度。

这变得特别有趣, 当翻译文件或网页, 而不是仅仅个别句子。假设已经收到了包含100句句子的网页的翻译请求。根据翻译系统的体系结构, 这些句子都可以转到一个进程, 也可以分布在多个进程计算机上。无论哪种方式, 很明显, 翻译整页所需的时间与翻译句子所需的最长时间成正比。在投入的时间对用户的时间有害之前, 我们花了多长时间翻译一个句子?为了追求最佳的翻译, 我们最终可能会阻止用户获得任何信息来响应他们的翻译请求。因此, 该系统的效用取决于为平衡语言质量和应用程序性能而作出的决定。

有了微软翻译产品, 我们的双语查看器还有一个额外的功能, 在公开提供的翻译产品中是独一无二的。它支持并行文本突出显示、同步滚动, 并为页面呈现渐进式呈现。这将为我们的用户所看到的内容增加另一层, 并因此为抛光和完成添加另一层。

在未来几周内, 我们希望为您带来更多具体领域的细节, 这些领域已经和正在进行测试, 以提供高质量的翻译系统。请随时发布任何问题, 你有这个问题, 你一直想问的东西:-), 在评论部分。