Интеграция сквозного преобразования речи в ваши продукты с помощью служб распознавания речи Майкрософт

Опубликовано на 24 сентября 2018 г.15 марта 2019 г.около Microsoft Research

Службы речевого обслуживания Microsoft теперь находятся в общей доступности. Часть когнитивных служб Azure, Speech предлагает полные речевые возможности, включая распознавание речи, перевод и преобразование текста в речь в наборе унифицированных и настраиваемых сервисов. Он сочетает в себе возможности существующего API речевого интерфейса Microsoft Translator, API Bing для распознавания речи и пользовательской речевой службы (Предварительная версия).

Речь — это предприятие, готовое и масштабируемое для ваших нужд, от прототипирования до производства. Он может быть добавлен к вашим приложениям, веб-сайтам и рабочим процессам через Azure Подписки.

Речь поддерживает 11 языков перевода речи в речь. Речь с любого из этих 11 языков также может быть переведена на более чем 60 текстовых языков. Списки поддерживаемых языков для перевода, распознавания речи и преобразования текста в речь можно найти в Документация по речевым услугам.

Настраиваемое сквозное решение

Аналогично API-ИНТЕРФЕЙСу переводчика Microsoft Speech, служба перевода речи объединяет все элементы, необходимые для перевода речи в одну интегрированную службу: распознавание речи, включая нормализацию текста TrueТекстовые, перевод текста через Служба переводчика Microsoft и текст в речь.

Кроме того, речевые переводы настраиваются на каждом уровне, от ввода распознавания речи до перевода и вывода текста в речь.

Распознавание речи и нормализация TrueТекстовые: преобразование речевого звука в текст

Речевой звук обрабатывается и преобразуется в необработанный текстовый вывод. После преобразования речи TrueТекстовые нормализует текст, чтобы сделать его более подходящим для перевода. TrueТекстовые удаляет речевые disfluencies (такие слова, как «UM» и «AH»), заикание и повторения. Текст также сделан более читаемым и переводимым путем добавления перерывов в предложении, правильной пунктуации и капитализации.

Распознавание речи можно настроить с помощью Пользовательские речи. С пользовательской речи, пользователи могут создавать пользовательские языковые модели с учетом их собственного словаря и уникальный стиль речи. Пользовательские акустические модели также могут быть созданы для адаптации к пользовательской среде, чтобы убедиться, что распознавание речи может адаптироваться к различным микрофонам, частоте дискретизации или фоновому шуму.

Машинный перевод: перевести текст

Преобразованный текст переводится с помощью нейронного машинного перевода, специально разработанного для реальных разговоров.

Пользовательский переводчик предварительного просмотра позволяет пользователям настраивать переводчик нейронных систем перевода в один, который понимает терминологию, используемую в компании или отрасли.

Системы, настроенные с помощью пользовательского переводчика, могут использоваться как для речевых переводов, так и для текстовых переводов Текстовый API переводчика Microsoft.

Текст в речь: произВодят аудио из переведенного текста

Преобразования текста в речь, или синтеза голоса, создает компьютер-генерируемый аудиовыход из переведенного текста. Пользователи могут выбирать из более чем 75 голосов в более чем 45 языки или локали, в том числе варианты мужской и женский голоса.

С Пользовательский ГолосПользователи также могут настраивать голос путем записи и передачи обучающих данных. Сервис создает уникальный голос, настроенный на ваши записи.

Начало работы с унифицированной речью

Подробнее об унифицированной речи на сервисе Страница Azure. Там вы можете протестировать унифицированные службы распознавания речи Майкрософт бесплатно с 30-дневным пробным ключом через Портал Azure.

Документация для речи доступна Здесьи полна быстрых запусков, руководств и руководств, помогающих добавить службу в приложение.

Начните работу с Microsoft Speech бесплатно прямо сейчас.

Блог переводчика Майкрософт

Настраиваемое сквозное решение

Начало работы с унифицированной речью