Интеграция сквозного преобразования речи в ваши продукты с помощью служб распознавания речи Майкрософт
Службы речевого обслуживания Microsoft теперь находятся в общей доступности. Часть когнитивных служб Azure, Speech предлагает полные речевые возможности, включая распознавание речи, перевод и преобразование текста в речь в наборе унифицированных и настраиваемых сервисов. Он сочетает в себе возможности существующего API речевого интерфейса Microsoft Translator, API Bing для распознавания речи и пользовательской речевой службы (Предварительная версия).
Речь — это предприятие, готовое и масштабируемое для ваших нужд, от прототипирования до производства. Он может быть добавлен к вашим приложениям, веб-сайтам и рабочим процессам через Azure Подписки.
Речь поддерживает 11 языков перевода речи в речь. Речь с любого из этих 11 языков также может быть переведена на более чем 60 текстовых языков. Списки поддерживаемых языков для перевода, распознавания речи и преобразования текста в речь можно найти в Документация по речевым услугам.
Настраиваемое сквозное решение
Аналогично API-ИНТЕРФЕЙСу переводчика Microsoft Speech, служба перевода речи объединяет все элементы, необходимые для перевода речи в одну интегрированную службу: распознавание речи, включая нормализацию текста TrueТекстовые, перевод текста через Служба переводчика Microsoft и текст в речь.
Кроме того, речевые переводы настраиваются на каждом уровне, от ввода распознавания речи до перевода и вывода текста в речь.
Распознавание речи и нормализация TrueТекстовые: преобразование речевого звука в текст
Речевой звук обрабатывается и преобразуется в необработанный текстовый вывод. После преобразования речи TrueТекстовые нормализует текст, чтобы сделать его более подходящим для перевода. TrueТекстовые удаляет речевые disfluencies (такие слова, как «UM» и «AH»), заикание и повторения. Текст также сделан более читаемым и переводимым путем добавления перерывов в предложении, правильной пунктуации и капитализации.
Распознавание речи можно настроить с помощью Пользовательские речи. С пользовательской речи, пользователи могут создавать пользовательские языковые модели с учетом их собственного словаря и уникальный стиль речи. Пользовательские акустические модели также могут быть созданы для адаптации к пользовательской среде, чтобы убедиться, что распознавание речи может адаптироваться к различным микрофонам, частоте дискретизации или фоновому шуму.
Машинный перевод: перевести текст
Преобразованный текст переводится с помощью нейронного машинного перевода, специально разработанного для реальных разговоров.
Пользовательский переводчик предварительного просмотра позволяет пользователям настраивать переводчик нейронных систем перевода в один, который понимает терминологию, используемую в компании или отрасли.
Системы, настроенные с помощью пользовательского переводчика, могут использоваться как для речевых переводов, так и для текстовых переводов Текстовый API переводчика Microsoft.
Текст в речь: произВодят аудио из переведенного текста
Преобразования текста в речь, или синтеза голоса, создает компьютер-генерируемый аудиовыход из переведенного текста. Пользователи могут выбирать из более чем 75 голосов в более чем 45 языки или локали, в том числе варианты мужской и женский голоса.
С Пользовательский ГолосПользователи также могут настраивать голос путем записи и передачи обучающих данных. Сервис создает уникальный голос, настроенный на ваши записи.
Начало работы с унифицированной речью
Подробнее об унифицированной речи на сервисе Страница Azure. Там вы можете протестировать унифицированные службы распознавания речи Майкрософт бесплатно с 30-дневным пробным ключом через Портал Azure.
Документация для речи доступна Здесьи полна быстрых запусков, руководств и руководств, помогающих добавить службу в приложение.