Integracja end-to-end Tłumaczenie mowy do swoich produktów z Microsoft Speech Services
Usługi Microsoft Speech są teraz ogólnie dostępne. W ramach usługi Azure Cognitive Services usługa mowa oferuje pełne funkcje mowy, w tym rozpoznawanie mowy, tłumaczenie i tekst na mowę w zestawie ujednoliconych i dostosowywanych usług. Łączy w sobie możliwości istniejącego interfejsu API mowy Translatora Microsoft translator, interfejsu API mowy Bing i usługi mowy niestandardowej (wersja zapoznawcza).
Mowa jest przedsiębiorstwem gotowym i skalowalnym pod kątem Twoich potrzeb, od tworzenia prototypów do produkcji. Można go dodać do aplikacji, witryn sieci Web i przepływów pracy za pośrednictwem Azure Subskrypcji.
Mowa obsługuje 11 języków tłumaczenia mowy na mowę. Mowę z dowolnego z tych 11 języków można również przetłumaczyć na więcej niż 60 języków tekstu. Listy obsługiwanych języków do tłumaczenia, rozpoznawania mowy i tekstu na mowę można znaleźć w Dokumentacja usług mowy.
Dostosowywane rozwiązanie end-to-end
Podobnie jak w przypadku interfejsu API mowy Microsoft Translator usługa tłumaczenia mowy łączy wszystkie elementy potrzebne do tłumaczenia mowy w jednej zintegrowanej usłudze: Rozpoznawanie mowy, w tym Normalizacja tekstu TrueText, tłumaczenie tekstu za pośrednictwem Usługi Microsoft Translator i tekst na mowę.
Ponadto, tłumaczenia mowy są dostosowywane na każdym poziomie, od rozpoznawania mowy wejściowego do tłumaczenia na wyjście text-to-Speech.
Rozpoznawanie mowy i normalizacja TrueText: konwertowanie dźwięku mowy na tekst
Dźwięk mowy jest przetwarzany i konwertowany na wyjściowy tekst RAW. Po przekonwertowaniu mowy TrueText normalizuje tekst, aby uczynić go bardziej odpowiednie dla translacji. TrueText usuwa disfluencies mowy (wyrazy wypełniające, takie jak "UM" s i "Ah" s), zacina się i powtórzeń. Tekst jest również bardziej czytelny i możliwy do przetłumaczenia przez dodanie przerw zdań, odpowiedniej interpunkcji i wielkości liter.
Rozpoznawanie mowy można dostosować za pomocą Niestandardowe mowy. Dzięki funkcji Custom Speech użytkownicy mogą budować niestandardowe modele językowe dopasowane do własnych słownictwa i niepowtarzalnego stylu mówienia. Niestandardowe modele akustyczne mogą być również tworzone w celu dostosowania do środowiska użytkownika, aby upewnić się, że rozpoznawanie mowy może dostosować się do różnych mikrofonów, częstotliwość próbkowania lub szum tła.
Tłumaczenie maszynowe: tłumaczenie tekstu
Przekonwertowany tekst jest tłumaczony za pomocą translacji maszynowego neuronowego opracowanego specjalnie dla rzeczywistych rozmów głosowych.
Niestandardowy translator podglądu pozwala użytkownikom na dostosowywanie translatora neuronowych tłumaczeń w taki, który rozumie terminologię stosowaną w firmie lub przemyśle.
Systemy dostosowane z niestandardowym tłumaczem mogą być używane zarówno do tłumaczeń mowy, jak i tłumaczeń tekstowych za pomocą Interfejs API tekstu tłumacza Microsoft.
Zamiana tekstu na mowę: Tworzenie dźwięku z przetłumaczonego tekstu
Synteza mowy lub głosu tworzy wygenerowane komputerowo wyjście audio z przetłumaczonego tekstu. Użytkownicy mogą wybierać spośród ponad 75 głosów w ponad 45 językach lub lokalizacjach, włączając w to opcje dla głosów męskich i żeńskich.
Z Niestandardowy głos, użytkownicy mogą również dostosować głos przez nagrywanie i przekazywanie danych szkoleniowych. Usługa tworzy unikalny głos dostosowany do Twoich nagrań.
Rozpocznij pracę z ujednoliconą mowę
Dowiedz się więcej o ujednoliconej mowy w usłudze Strona platformy azureazure Page. Można tam przetestować ujednolicone usługi mowy firmy Microsoft za darmo z 30-dniowym kluczem testowym przez Portalu Azure.
Dokumentacja dotycząca mowy jest dostępna tutaji jest pełen szybkich uruchamiania, samouczków i wskazówek, które pomogą Ci dodać usługę do aplikacji.
Rozpocznij pracę z programem Microsoft Speech za darmo teraz.