Integracja end-to-end Tłumaczenie mowy do swoich produktów z Microsoft Speech Services

Opublikowano w dniu 24 września 201815 marca 2019przez Microsoft Translator

Usługi Microsoft Speech są teraz ogólnie dostępne. W ramach usługi Azure Cognitive Services usługa mowa oferuje pełne funkcje mowy, w tym rozpoznawanie mowy, tłumaczenie i tekst na mowę w zestawie ujednoliconych i dostosowywanych usług. Łączy w sobie możliwości istniejącego interfejsu API mowy Translatora Microsoft translator, interfejsu API mowy Bing i usługi mowy niestandardowej (wersja zapoznawcza).

Mowa jest przedsiębiorstwem gotowym i skalowalnym pod kątem Twoich potrzeb, od tworzenia prototypów do produkcji. Można go dodać do aplikacji, witryn sieci Web i przepływów pracy za pośrednictwem Azure Subskrypcji.

Mowa obsługuje 11 języków tłumaczenia mowy na mowę. Mowę z dowolnego z tych 11 języków można również przetłumaczyć na więcej niż 60 języków tekstu. Listy obsługiwanych języków do tłumaczenia, rozpoznawania mowy i tekstu na mowę można znaleźć w Dokumentacja usług mowy.

Dostosowywane rozwiązanie end-to-end

Podobnie jak w przypadku interfejsu API mowy Microsoft Translator usługa tłumaczenia mowy łączy wszystkie elementy potrzebne do tłumaczenia mowy w jednej zintegrowanej usłudze: Rozpoznawanie mowy, w tym Normalizacja tekstu TrueText, tłumaczenie tekstu za pośrednictwem Usługi Microsoft Translator i tekst na mowę.

Ponadto, tłumaczenia mowy są dostosowywane na każdym poziomie, od rozpoznawania mowy wejściowego do tłumaczenia na wyjście text-to-Speech.

Rozpoznawanie mowy i normalizacja TrueText: konwertowanie dźwięku mowy na tekst

Dźwięk mowy jest przetwarzany i konwertowany na wyjściowy tekst RAW. Po przekonwertowaniu mowy TrueText normalizuje tekst, aby uczynić go bardziej odpowiednie dla translacji. TrueText usuwa disfluencies mowy (wyrazy wypełniające, takie jak "UM" s i "Ah" s), zacina się i powtórzeń. Tekst jest również bardziej czytelny i możliwy do przetłumaczenia przez dodanie przerw zdań, odpowiedniej interpunkcji i wielkości liter.

Rozpoznawanie mowy można dostosować za pomocą Niestandardowe mowy. Dzięki funkcji Custom Speech użytkownicy mogą budować niestandardowe modele językowe dopasowane do własnych słownictwa i niepowtarzalnego stylu mówienia. Niestandardowe modele akustyczne mogą być również tworzone w celu dostosowania do środowiska użytkownika, aby upewnić się, że rozpoznawanie mowy może dostosować się do różnych mikrofonów, częstotliwość próbkowania lub szum tła.

Tłumaczenie maszynowe: tłumaczenie tekstu

Przekonwertowany tekst jest tłumaczony za pomocą translacji maszynowego neuronowego opracowanego specjalnie dla rzeczywistych rozmów głosowych.

Niestandardowy translator podglądu pozwala użytkownikom na dostosowywanie translatora neuronowych tłumaczeń w taki, który rozumie terminologię stosowaną w firmie lub przemyśle.

Systemy dostosowane z niestandardowym tłumaczem mogą być używane zarówno do tłumaczeń mowy, jak i tłumaczeń tekstowych za pomocą Interfejs API tekstu tłumacza Microsoft.

Zamiana tekstu na mowę: Tworzenie dźwięku z przetłumaczonego tekstu

Synteza mowy lub głosu tworzy wygenerowane komputerowo wyjście audio z przetłumaczonego tekstu. Użytkownicy mogą wybierać spośród ponad 75 głosów w ponad 45 językach lub lokalizacjach, włączając w to opcje dla głosów męskich i żeńskich.

Z Niestandardowy głos, użytkownicy mogą również dostosować głos przez nagrywanie i przekazywanie danych szkoleniowych. Usługa tworzy unikalny głos dostosowany do Twoich nagrań.

Rozpocznij pracę z ujednoliconą mowę

Dowiedz się więcej o ujednoliconej mowy w usłudze Strona platformy azureazure Page. Można tam przetestować ujednolicone usługi mowy firmy Microsoft za darmo z 30-dniowym kluczem testowym przez Portalu Azure.

Dokumentacja dotycząca mowy jest dostępna tutaji jest pełen szybkich uruchamiania, samouczków i wskazówek, które pomogą Ci dodać usługę do aplikacji.

Rozpocznij pracę z programem Microsoft Speech za darmo teraz.

Blog Microsoft Translator

Dostosowywane rozwiązanie end-to-end

Rozpocznij pracę z ujednoliconą mowę