Zu Hauptinhalt springen
Translator
Diese Seite wurde automatisch vom maschinellen Übersetzungsdienst von Microsoft Translator übersetzt. Weitere Informationen

Microsoft Translator Blog

Neuronale maschinelle Übersetzung, die Innovationen der menschlichen Parität in der Cloud ermöglicht.

Im März 2018 haben wir die Angekündigt (Hassan et al. 2018) ein bahnbrechendes Ergebnis, bei dem wir zum ersten Mal ein maschinelles Übersetzungssystem zeigten, das sowohl für menschliche Übersetzer als auch für Übersetzer geeignet ist (in einem bestimmten Szenario - chinesisch-englische Nachrichtenübersetzung). Dies war ein aufregender Durchbruch in der Forschung zur maschinellen Übersetzung, aber das System, das wir für dieses Projekt entwickelt haben, war ein komplexes, schwergewichtiges Forschungssystem, das mehrere hochmoderne Techniken enthielt. Obwohl wir die Ausgabe dieses Systems auf mehreren Testsätzen freigegeben haben, war das System selbst nicht für den Einsatz in einer Echtzeit-Cloud-API für maschinelle Übersetzung geeignet.

Heute freuen wir uns, die Verfügbarkeit unserer neuesten Generation von neuronalen maschinellen Übersetzungsmodellen in der Produktion bekannt zu geben. Diese Modelle vereinen den größten Teil der Vorteile unseres Forschungssystems und sind nun standardmäßig verfügbar, wenn Sie die Microsoft Translator API verwenden. Diese neuen Modelle sind heute in Chinesisch, Deutsch, Französisch, Hindi, Italienisch, Spanisch, Japanisch, Koreanisch und Russisch von und nach Englisch erhältlich. Weitere Sprachen folgen in Kürze.

Vom Forschungspapier zur Cloud-API wechseln

Im vergangenen Jahr haben wir nach Möglichkeiten gesucht, einen Großteil der Qualität unseres Human-Parity-Systems in das Microsoft-System einzubringen. Übersetzer-APIund bietet gleichzeitig weiterhin eine kostengünstige Echtzeit-Übersetzung. Hier sind einige der Schritte auf dieser Reise.

Lehrer-Schüler-Ausbildung

Unser erster Schritt war der Wechsel zu einem "Lehrer-Schüler"-Framework, bei dem wir einen leichten Echtzeit-Schüler ausbilden, um ein schwergewichtiges Lehrernetzwerk nachzuahmen (Ba und Caruana 2014). Dies wird erreicht, indem der Schüler nicht auf die parallelen Daten geschult wird, auf denen MT-Systeme üblicherweise trainiert werden, sondern auf die vom Lehrer erstellten Übersetzungen (Kim und Rush 2016). Dies ist eine einfachere Aufgabe als das Lernen aus Rohdaten und ermöglicht es einem flacheren, einfacheren Schüler, dem komplexen Lehrer sehr genau zu folgen. Wie zu erwarten war, erlitten unsere ersten Versuche noch Qualitätseinbußen von Lehrer zu Schüler (kein kostenloses Mittagessen!), aber wir belegten dennoch den ersten Platz bei der WNMT 2018 Shared Task on Efficient Decoding (Junczys-Dowmunt et al. 2018a). Einige besonders spannende Ergebnisse aus dieser Arbeit waren dieser Transformator (Vaswani et al. 2017) Modelle und ihre Modifikationen spielen gut mit der Lehrer-Schüler-Ausbildung und sind erstaunlich effizient bei der Inferenz auf die CPU.

Aus diesen ersten Ergebnissen haben wir gelernt und nach vielen Iterationen ein Rezept entdeckt, das es unserem einfachen Schüler ermöglicht, fast die gleiche Qualität wie der komplexe Lehrer zu haben (manchmal gibt es doch ein kostenloses Mittagessen?). Jetzt konnten wir große, komplexe Lehrermodelle entwickeln, um die Qualität zu maximieren, ohne uns um Echtzeitbeschränkungen (zu viel) zu kümmern.

Echtzeit-Übersetzung

Unsere Entscheidung, zu einem Lehrer-Schüler-Rahmen zu wechseln, wurde durch die großartige Arbeit von Kim und Rush (2016)) für einfache RNN-basierte Modelle. Zu diesem Zeitpunkt war unklar, ob sich der berichtete Nutzen auch für Transformatormodelle manifestieren würde (siehe Vaswani et al. 2017 für Details zu diesem Modell). Wir stellten jedoch schnell fest, dass dies tatsächlich der Fall war.

Der Transformer-Schüler könnte einen stark vereinfachten Dekodierungsalgorithmus (gierige Suche) verwenden, bei dem wir bei jedem Schritt nur das beste übersetzte Wort auswählen, anstatt die übliche Methode (Beam-Suche), bei der wir den riesigen Raum der möglichen Übersetzungen durchsuchen. Diese Änderung hatte nur minimale Auswirkungen auf die Qualität, führte aber zu großen Verbesserungen bei der Übersetzungsgeschwindigkeit. Im Gegensatz dazu würde ein Lehrermodell beim Wechsel von der Strahlsuche zur Giersuche einen deutlichen Qualitätsverlust erleiden.

Gleichzeitig stellten wir fest, dass anstatt die neueste neuronale Architektur (Transformer mit Selbstaufmerksamkeit) im Decoder zu verwenden, der Schüler so modifiziert werden konnte, dass er eine drastisch vereinfachte und schnellere wiederkehrende (RNN) Architektur verwendet. Dies ist wichtig, da der Transformer-Encoder zwar parallel über den gesamten Quellsatz berechnet werden kann, der Zielsatz aber immer nur ein Wort auf einmal erzeugt wird, so dass die Geschwindigkeit des Decoders einen großen Einfluss auf die Gesamtgeschwindigkeit der Übersetzung hat. Im Vergleich zur Selbstaufmerksamkeit reduziert der wiederkehrende Decoder die algorithmische Komplexität von quadratisch auf linear in der Zielsatzlänge. Besonders im Lehrer-Schüler-Umfeld sahen wir keinen Qualitätsverlust durch diese Änderungen, weder für automatische noch für menschliche Bewertungsergebnisse. Mehrere zusätzliche Verbesserungen wie die gemeinsame Nutzung von Parametern führten zu einer weiteren Reduzierung der Komplexität und einer höheren Geschwindigkeit.

Ein weiterer Vorteil des Lehrer-Schüler-Rahmens, über den wir uns sehr gefreut haben, ist, dass Qualitätsverbesserungen im Laufe der Zeit durch die ständig wachsenden und sich ändernden Lehrer leicht auf eine unveränderte Schülerarchitektur übertragen werden können. In Fällen, in denen wir diesbezüglich Probleme sahen, würde eine leichte Erhöhung der Modellkapazität der Studierenden die Lücke wieder schließen.

Duales Lernen

Die Schlüsselerkenntnis hinter dem dualen Lernen (He et al. 2016) ist die "Round-Trip-Übersetzung", die manchmal verwendet wird, um die Übersetzungsqualität zu überprüfen. Angenommen, wir verwenden einen Online-Übersetzer, um vom Englischen ins Italienische zu wechseln. Wenn wir kein Italienisch lesen, woher wissen wir dann, ob es gute Arbeit geleistet hat? Vor dem Anklicken senden in einer E-Mail, können wir die Qualität überprüfen, indem wir das Italienische zurück ins Englische übersetzen (vielleicht auf einer anderen Website). Wenn das Englisch, das wir zurückbekommen, zu weit vom Original entfernt ist, ist es wahrscheinlich, dass eine der Übersetzungen aus den Fugen geraten ist.

Duales Lernen verwendet den gleichen Ansatz, um zwei Systeme (z.B. Englisch->Italienisch und Italienisch->Englisch) parallel zu trainieren, wobei die Hin- und Rückübersetzung von einem System verwendet wird, um das andere System zu bewerten, zu validieren und zu trainieren.

Das duale Lernen trug wesentlich zu unserem Forschungsergebnis der Mensch-Parität bei. Mit dem Übergang vom Forschungssystem zu unserem Produktionsrezept haben wir diesen Ansatz weitgehend verallgemeinert. Wir haben nicht nur Paare von Systemen gemeinsam auf die Ergebnisse der anderen trainiert, sondern auch das gleiche Kriterium für die Filterung unserer parallelen Daten verwendet.

Bereinigung ungenauer Daten

Maschinelle Übersetzungssysteme werden auf "parallelen Daten" geschult, d.h. Paaren von Dokumenten, die Übersetzungen voneinander sind, idealerweise von einem menschlichen Übersetzer erstellt. Wie sich herausstellt, sind diese parallelen Daten oft voll von ungenauen Übersetzungen. Manchmal sind die Dokumente nicht wirklich parallel, sondern nur lose Paraphrasen voneinander. Menschliche Übersetzer können wählen, ob sie auf Quellmaterial verzichten oder zusätzliche Informationen einfügen möchten. Die Daten können Tippfehler, Rechtschreibfehler, grammatikalische Fehler enthalten. Manchmal werden unsere Data-Mining-Algorithmen durch ähnliche, aber nicht parallele Daten oder sogar durch Sätze in der falschen Sprache getäuscht. Am schlimmsten ist, dass viele der Webseiten, die wir sehen, Spam sind, oder tatsächlich maschinelle Übersetzungen und keine menschlichen Übersetzungen sein können. Neuronale Systeme sind sehr empfindlich auf diese Art von Ungenauigkeit der Daten. Wir fanden heraus, dass die Erstellung neuronaler Modelle zur automatischen Identifizierung und Beseitigung dieser Ungenauigkeiten zu einer starken Verbesserung der Qualität unserer Systeme führte. Unser Ansatz zur Datenfilterung führte zu dem ersten Platz in der Liste der WMT18 Benchmark für parallele Korpusfilterung (Junczys-Dowmunt 2018a) und half beim Aufbau eines der stärksten englisch-deutschen Übersetzungssysteme in der Region. WMT18 News Übersetzung Aufgabe (Junczys-Dowmunt 2018b). Wir haben verbesserte Versionen dieses Ansatzes in den Produktionssystemen verwendet, die wir heute veröffentlicht haben.

Faktorisierte Wortdarstellungen

Bei der Umstellung einer Forschungstechnologie auf die Produktion ergeben sich mehrere Herausforderungen aus der Praxis. Zahlen, Daten, Zeiten, Groß- und Kleinschreibung, Leerzeichen usw. sind in der Produktion viel wichtiger als in einem Forschungssystem.

Berücksichtigen Sie die Herausforderung der Kapitalisierung. Wenn wir den Satz "WATCH CAT VIDEOS HERE" übersetzen. Wir wissen, wie man "Katze" übersetzt. Wir würden "CAT" auf die gleiche Weise übersetzen wollen. Aber denken Sie jetzt an "US-Fußball hier sehen". Wir wollen in diesem Zusammenhang das Wort "uns" und das Akronym "US" nicht verwechseln.

Um dies zu bewältigen, haben wir einen Ansatz verwendet, der als Factored Machine Translation bekannt ist (Koehn und Hoang 2007Sennrich und Haddow 2016), das wie folgt funktioniert. Anstelle einer einzigen numerischen Darstellung ("Einbettung") für "cat" oder "CAT" verwenden wir mehrere Einbettungen, die als "Faktoren" bezeichnet werden. In diesem Fall wäre die primäre Einbettung für "CAT" und "cat" gleich, aber ein separater Faktor würde die Groß-/Kleinschreibung darstellen, was zeigt, dass es sich in der einen Instanz um All-Caps handelt, in der anderen um Kleinbuchstaben. Auf der Quell- und Zielseite werden ähnliche Faktoren verwendet.

Wir verwenden ähnliche Faktoren, um Wortfragmente und den Abstand zwischen den Wörtern zu handhaben (ein komplexes Problem in nicht oder nur teilweise voneinander entfernten Sprachen wie Chinesisch, Koreanisch, Japanisch oder Thai).

Faktoren auch dramatisch verbesserte Übersetzung von Zahlen, die in vielen Szenarien entscheidend ist. Die Zahlenübersetzung ist meist eine algorithmische Transformation. So können beispielsweise 1.234.000 als 12.34.000 auf Hindi, 1.234.000 auf Deutsch und 123.4万 auf Chinesisch geschrieben werden. Traditionell werden Zahlen wie Wörter dargestellt, als Gruppen von Zeichen unterschiedlicher Länge. Dies macht es für das maschinelle Lernen schwierig, den Algorithmus zu entdecken. Stattdessen füttern wir jede einzelne Ziffer einer Zahl separat, wobei Faktoren Anfang und Ende markieren. Dieser einfache Trick beseitigte robust und zuverlässig fast alle Zahlenübersetzungsfehler.

Schnellere Modellschulung

Wenn wir ein einzelnes System auf ein einziges Ziel hin trainieren, wie wir es im Rahmen des Human-Parity-Forschungsprojekts getan haben, erwarten wir, dass wir eine große Anzahl von Hardware in Modelle werfen werden, deren Training Wochen dauert. Beim Training von Produktionsmodellen für 20+ Sprachpaare wird dieser Ansatz unhaltbar. Wir brauchen nicht nur vernünftige Durchlaufzeiten, sondern auch einen moderaten Hardwarebedarf. Für dieses Projekt haben wir eine Reihe von Leistungsverbesserungen vorgenommen. Marianisches NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT ist das Open-Source Neural MT-Toolkit, auf dem Microsoft Translator basiert. Marian ist ein reines C++ neuronales maschinelles Übersetzungs-Toolkit und daher äußerst effizient, da GPUs zur Laufzeit nicht erforderlich sind und die Trainingszeit sehr effizient ist.

Aufgrund seiner in sich geschlossenen Natur ist es recht einfach, Marian für NMT-spezifische Aufgaben zu optimieren, was zu einem der effizientesten NMT-Toolkits führt. Werfen Sie einen Blick auf die Benchmarks. Wenn Sie an der Forschung und Entwicklung von Neural MT interessiert sind, melden Sie sich bitte an und leisten Sie einen Beitrag zur Community auf Github.

Unsere Verbesserungen beim Mixed-Precision-Training und -Decodierung sowie beim großen Modelltraining werden in Kürze im öffentlichen Github-Repository verfügbar gemacht.

Wir sind gespannt auf die Zukunft der neuronalen maschinellen Übersetzung. Wir werden die neue Modellarchitektur weiterhin auf die übrigen Sprachen ausweiten und die Custom Translator das ganze Jahr über. Unsere Benutzer erhalten automatisch die deutlich hochwertigeren Übersetzungen durch die Übersetzer-API, unser Übersetzer-App, Microsoft Office und dem Edge-Browser. Wir hoffen, dass die neuen Verbesserungen Ihrem persönlichen und beruflichen Leben helfen und freuen uns auf Ihr Feedback.

 

Referenzen

  • Jimmy Ba und Rich Caruana. 2014. Müssen tiefe Netze wirklich tief sein? Fortschritte bei neuronalen Informationsverarbeitungssystemen 27. Seiten 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
  • Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie Liu, Tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. Erreichen der menschlichen Parität bei der automatischen Übersetzung von chinesischen in englische Nachrichten. http://arxiv.org/abs/1803.05567
  • Er, Di und Xia, Yingce und Qin, Tao und Wang, Liwei und Yu, Nenghai und Liu, Tie-Yan und Ma, Wei-Ying. 2016. Duales Lernen für maschinelle Übersetzung. Fortschritte in neuronalen Informationsverarbeitungssystemen 29. Seiten 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
  • Marcin Junczys-Dowmunt. 2018a. Duale bedingte Cross-Entropy-Filterung von verrauschten parallelen Unternehmen. Proceedings of the Third Conference on Machine Translation: Gemeinsame Aufgabenpapiere. Belgien, Seiten 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
  • Marcin Junczys-Dowmunt. 2018b. Microsofts Einreichung bei der WMT2018 News Translation Task: Wie ich gelernt habe, mit der Sorge aufzuhören und die Daten zu lieben. Proceedings of the Third Conference on Machine Translation: Gemeinsame Aufgabenpapiere. Belgien, Seiten 425-430. https://www.aclweb.org/anthology/W18-6415/
  • Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: Kostengünstige, qualitativ hochwertige neuronale maschinelle Übersetzung in C++. Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. Melbourne, Australien, Seiten 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
  • Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: Schnelle neuronale Maschinenübersetzung in C++. Verfahren der ACL 2018, Systemvorführungen. Melbourne, Australien, Seiten 116-121. https://www.aclweb.org/anthology/P18-4020/
  • Yoon Kim und Alexander M. Rush. 2016. Wissensdestillation auf Sequenzebene. In den Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, 1. bis 4. November 2016, Seiten 1317-1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
  • Philipp Koehn, Hieu Hoang. 2007. Faktorisierte Übersetzungsmodelle. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Prag, Tschechien, Seiten 868-876. https://www.aclweb.org/anthology/D07-1091/
  • Rico Sennrich, Barry Haddow. 2016. Sprachliche Eingabefunktionen verbessern die neuronale maschinelle Übersetzung. Proceedings of the First Conference on Machine Translation: Band 1, Forschungsarbeiten. Berlin, Deutschland, Seiten 83-91. https://www.aclweb.org/anthology/W16-2209/
  • Vaswani, Ashish und Shazeer, Noam und Parmar, Niki und Uszkoreit, Jakob und Jones, Löwe und Gomez, Aidan N und Kaiser, Lukasz und Polosukhin, Illia. 2017. Aufmerksamkeit ist alles, was du brauchst. Fortschritte bei neuronalen Informationsverarbeitungssystemen 30. Seiten 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need