使用 Microsoft 语音服务将端到端语音翻译集成到您的产品中

Microsoft 语音服务目前处于通用的可用性。作为 Azure 认知服务的一部分, 语音提供了完整的语音功能, 包括语音识别、翻译和在一套统一和可定制的服务中的文本到语音。它结合了现有的 Microsoft 翻译语音 api、Bing 语音 api 和自定义语音服务 (预览) 的功能。

演讲是企业为您的需求准备和可伸缩的, 从原型到生产。它可以添加到您的应用程序, 网站和工作流通过一个蔚蓝订阅。

语音支持11种语音语音转换语言。这11种语言中的任何一种, 也可以翻译成60多种文字语言。用于翻译、语音识别和文本到语音的支持语言列表可以在语音服务文档.

可自定义端到端解决方案

与 Microsoft 翻译语音 API 类似, 语音翻译服务将语音转换所需的所有元素组合在一个集成服务中: 语音识别包括 TrueText 文本规范化、文本翻译通过微软翻译服务和文字语音。

此外, 语音翻译可以在每个级别自定义, 从输入语音识别到翻译到输出文本到语音。

语音识别和 TrueText 规范化: 将语音音频转换为文本

语音音频被处理并转换为原始文本输出。语音转换后, TrueText 规范化文本, 使其更适合翻译。TrueText 删除语音 disfluencies (填充词, 如 "um" 和 "ah")、结巴和重复。通过添加句子分隔符、正确的标点和大写, 也可以使文本更易于阅读和翻译。

语音识别可以使用自定义语音.使用自定义语音, 用户可以根据自己的词汇和独特的口语风格构建定制语言模型。还可以创建自定义声学模型以适应用户环境, 以确保语音识别能够适应各种麦克风、采样速率或背景噪声。

机器翻译: 翻译文本

转换后的文本是使用专门为实际口语会话开发的神经机器翻译进行翻译的。

自定义转换器预览允许用户自定义翻译公司的神经翻译系统到一个理解在企业或行业中使用的术语。

使用自定义转换器自定义的系统可以用于语音翻译和文本翻译。微软翻译的文本 API.

文本到语音: 从翻译的文本中生成音频

文本语音或语音合成, 从翻译文本创建计算机生成的音频输出。用户可以在超过45种语言或区域设置中选择75多个声音, 包括男女声音选项。

与自定义声音, 用户还可以通过录制和上载培训数据来自定义语音。该服务创建一个唯一的声音调谐到您的录音。

了解有关服务的统一语音的详细信息 Azure 页.在那里, 您可以通过30天试用密钥免费测试 Microsoft 的统一语音服务。 Azure 门户.

可提供语音文档这里, 并且充满了快速入门、教程以及如何帮助您将服务添加到应用程序中的指南。