クラウドにおけるヒューマンパリティの革新を可能にするニューラルマシン翻訳

投稿日時 2019年6月17日2019年6月21日によるものです。 Microsoft Translator

2018年3月には、発表 (ハッサンら 2018)は、人間の翻訳者と同様に実行できる機械翻訳システムを初めて示した画期的な結果です(特定のシナリオでは、中国語-英語のニュース翻訳)。これは機械翻訳研究の画期的なブレークスルーでしたが、このプロジェクトのために構築したシステムは、複数の最先端の技術を取り入れた複雑で重い研究システムでした。このシステムの出力を複数のテストセットでリリースしましたが、システム自体はリアルタイムの機械翻訳クラウドAPIでの展開には適していません。

今日、私たちはニューラルマシン翻訳モデルの最新世代の生産の可用性を発表することに興奮しています。これらのモデルには、研究システムの優れのほとんどが組み込まれ、Microsoft Translator API を使用する場合はデフォルトで使用できるようになりました。これらの新しいモデルは、中国語、ドイツ語、フランス語、ヒンディー語、イタリア語、スペイン語、日本語、韓国語、ロシア語で、英語から今日利用可能です。より多くの言語がすぐに来ています。

リサーチペーパーからクラウドAPIへの移行

過去 1 年間にわたり、私たちは人間と同等性システムの品質の多くをマイクロソフトに取り込む方法を模索してきました。トランスレータ API低コストのリアルタイム翻訳を提供し続けながら。ここでは、その旅の手順の一部を次に進めています。

教員・学生研修

私たちの最初のステップは、「教師と生徒」のフレームワークに切り替え、軽量のリアルタイムの学生を訓練して、ヘビー級の教師ネットワークを模倣しました(バとカルアナ 2014).これは、MTシステムが通常訓練される並列データではなく、教師によって生成された翻訳に関する学生を訓練することによって達成されます(キムとラッシュ 2016).これは生データから学習するよりも簡単な作業であり、浅くてシンプルな学生が複雑な教師に非常に密接に従うことを可能にします。ご想像のとおり、私たちの最初の試みは、まだ教師から生徒への品質低下に苦しんでいました(無料の昼食なし!)が、それでも効率的なデコードに関するWNMT 2018共有タスクで1位を取りました(ジュンツィス・ダウムントら 2018a).この取り組みから特にエキサイティングな結果は、トランスフォーマー(ヴァスワニら 2017)モデルとその変更は、教師と学生のトレーニングとうまく再生し、CPU上の推論中に驚くほど効率的です。

これらの最初の結果から学び、多くの反復の後、私たちは私たちの単純な学生が複雑な教師とほぼ同じ品質を持つことを可能にするレシピを発見しました(時には無料のランチがありますか?)。今では、リアルタイムの制約(あまりにも多く)を気にすることなく、品質を最大化するために、大規模で複雑な教師モデルを自由に構築できるようになりました。

リアルタイム翻訳

教師と生徒の枠組みに切り替えるという私たちの決断は、キムとラッシュ (2016)は、単純なRNNベースのモデルの場合です。その時点では、報告された利点がトランスフォーマーモデルにも現れるかどうかは不明でした(参照) ヴァスワニら 2017 このモデルの詳細)。しかし、私たちはすぐにこれが本当にそうであることを発見しました。

トランスフォーマーの学生は、可能な限り大きなスペースを検索する通常の方法(ビーム検索)ではなく、各ステップで単一の最良の翻訳された単語を選ぶ非常に単純化されたデコードアルゴリズム(貪欲な検索)を使用することができます翻訳。この変更は品質への影響は最小限に抑えられましたが、翻訳速度が大幅に向上しました。対照的に、教師モデルは、ビーム検索から貪欲な検索に切り替えるとき、品質が大幅に低下します。

同時に、デコーダで最新のニューラルアーキテクチャ(自己注意を払ったトランスフォーマー)を使用するのではなく、学生が大幅に簡素化され、より速い再発(RNN)アーキテクチャを使用するように変更できることを実感しました。これは、トランスエンコーダがソース文全体を並列に計算できる一方で、ターゲット文は一度に1つの単語を生成するため、デコーダの速度が翻訳の全体的な速度に大きな影響を与えるためです。自己注意と比較して、繰り返しデコーダは、ターゲット文の長さの二次から線形にアルゴリズムの複雑さを軽減します。特に教師と生徒の設定では、これらの変更による品質の低下は見られず、自動でも人間の評価結果もありませんでした。パラメータの共有など、いくつかの追加の改善により、複雑さがさらに軽減され、速度が向上しました。

私たちが見て非常に興奮していた教師と学生のフレームワークのもう一つの利点は、成長し、変化する教師の時間の経過とともに品質の向上が、変化しない学生アーキテクチャに容易に引き継がれていることです。この点で問題が発生した場合、学生モデルの容量がわずかに増加すると、再びギャップが埋まります。

デュアルラーニング

デュアルラーニングの背後にある重要な洞察(彼らら 2016)は、人々が時々翻訳の品質をチェックするために使用する「往復翻訳」チェックです。オンライン翻訳者を使用して英語からイタリア語に移動しているとします。イタリア語を読まないと、それが良い仕事をしたかどうか、どうやって知るのですか?クリックする前に送信電子メールでは、イタリア語を英語に戻すことによって品質を確認することを選択する場合があります (別の Web サイト上の場合もあります)。私たちが取り戻す英語が元からあまりにも遠くに迷い込んだ場合、翻訳の一つがレールから外れた可能性があります。

デュアルラーニングは、同じアプローチを使用して、2つのシステム(例えば、英語->イタリア語とイタリア語->英語)を並行してトレーニングし、1つのシステムからの往復翻訳を使用して、他のシステムをスコア付け、検証、トレーニングします。

デュアルラーニングは、私たちの人間とパリティの研究結果に大きく貢献しました。研究システムから生産レシピに向かうに当たって、このアプローチを広く一般化しました。互いの出力でシステムのペアを共同トレーニングするだけでなく、並列データをフィルタリングするために同じ基準を使用しました。

不正確なデータのクリーンアップ

機械翻訳システムは、「並列データ」、すなわち、人間の翻訳者によって理想的に作成された、互いの翻訳である文書のペアに訓練されています。結局のところ、この並列データは不正確な翻訳でいっぱいです。ドキュメントが本当に平行ではなく、お互いのゆるい言い回しだけである場合があります。人間の翻訳者は、いくつかのソース資料を除外するか、追加情報を挿入することができます。データには、入力ミス、スペルミス、文法上の誤りが含まれている可能性があります。私たちのデータマイニングアルゴリズムは、類似しているが、非並列データ、あるいは間違った言語の文章によってだまされることがあります。最悪なのは、私たちが見るウェブページの多くはスパムであり、実際には人間の翻訳ではなく機械翻訳である可能性があります。ニューラルシステムは、データのこの種の不正確さに非常に敏感です。これらの不正確さを自動的に特定して取り除くニューラルモデルを構築すると、システムの品質が大きく向上することがわかりました。データフィルタリングに対する当社のアプローチは、 WMT18並列コーパスフィルタリングベンチマーク (ジュンツィス-ダウムント 2018a)を使用し、最強の英語-ドイツ語翻訳システムの構築に役立ちました。 WMT18 ニュース翻訳タスク (ジュンツィス-ダウムント 2018b).本日リリースした運用システムでは、このアプローチの改良版を使用しました。

ファクタ化された単語表現

研究技術を生産に移す際には、いくつかの現実的な課題が生じます。数字、日付、時刻、大文字と小文字、間隔などを正しく取得することは、研究システムよりも生産において非常に重要です。

大文字と小文字の問題について考えてみましょう。「ここで猫の動画を見る」という文章を翻訳する場合。私たちは「猫」の翻訳方法を知っています。私たちは、同じように「CAT」を翻訳したいと思います。しかし、今は「ここでアメリカのサッカーを見る」と考えてください。この文脈では「私たち」と頭字語「US」を混同したくありません。

これを処理するために、ファクタリング機械翻訳と呼ばれるアプローチを使用しました(コーエンとホアン 2007, ゼンリッヒとハドウ 2016)は以下のように動作します。「猫」または「CAT」の単一の数値表現(「埋め込み」)の代わりに、「因子」と呼ばれる複数の埋め込みを使用します。この場合、プライマリ埋め込みは "CAT" と "cat" の場合は同じですが、別の要素が大文字を表し、一方のインスタンスではオールキャップですが、もう一方のインスタンスでは小文字であることを示します。同様の要因は、ソース側とターゲット側で使用されます。

同様の要因を使用して、単語の断片と単語間の間隔 (中国語、韓国語、日本語、タイ語などの非間隔言語や半間隔言語の複雑な問題) を処理します。

また、多くのシナリオで重要な数値の変換が大幅に改善されました。数値変換は、主にアルゴリズム変換です。たとえば、ヒンディー語で 12,34,000、ドイツ語で 1.234.000、中国語で 123.4 と書くことができます。従来、数字は単語のように表され、長さが異なる文字のグループとして表されます。このため、機械学習によってアルゴリズムの検出が困難になります。代わりに、数値の 1 桁ごとにフィードし、因子が始まりと終わりを示します。この単純なトリックは、ほぼすべての数変換エラーを堅牢かつ確実に削除しました。

より高速なモデルトレーニング

人間と同等の研究プロジェクトと同様に、単一の目標に向けて単一のシステムをトレーニングする場合、トレーニングに数週間かかるモデルに膨大な数のハードウェアを投入する予定です。20 以上の言語ペアの生産モデルをトレーニングする場合、このアプローチは不可能になります。合理的な回り回しの時間が必要なだけでなく、ハードウェアの要求を緩和する必要もあります。このプロジェクトでは、多くのパフォーマンス向上を行いました。マリアン NMT (ジュンツィス・ダウムントら 2018b).

マリアン NMT は、マイクロソフトの翻訳者が基づいているオープンソースのニューラル MT ツールキットです。マリアンは純粋なC++ニューラル機械翻訳ツールキットであり、その結果、非常に効率的で、実行時にGPUを必要とせず、トレーニング時に非常に効率的です。

自己完結型の性質上、NMT 固有のタスクに対してマリアンを最適化するのは非常に簡単で、最も効率的な NMT ツールキットの 1 つになります。を見てください。ベンチマーク.ニューラルMTの研究開発に興味がある方は、ぜひご参加ください。 Github のコミュニティ.

混合精度のトレーニングとデコード、および大規模なモデルトレーニングに関する改善は、まもなく公開 Github リポジトリで利用可能になります。

ニューラルマシン翻訳の未来にワクワクしています。我々は、残りの言語に新しいモデルアーキテクチャを展開し続けますカスタムトランスレータ今年を通して。当社のユーザーは、自動的に大幅に高品質の翻訳を取得します。トランスレータ API私たち翻訳アプリ、マイクロソフトオフィス、およびエッジブラウザ。私たちは、新しい改善があなたの個人的かつ専門的な生活に役立ち、あなたのフィードバックを楽しみにしています。

参照

ジミー・バとリッチ・カルアナ2014. ディープネットは本当に深くする必要がありますか?神経情報処理システムの進歩 27.ページ 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
ハニー・ハッサン、アンソニー・アウエ、チャン・チェン、ヴィシャル・チャウダリー、ジョナサン・クラーク、クリスチャン・フェダーマン、シュエドン・フアン、マルシン・ジュンツィス・ダウムント、ウィリアム・ルイス、ムー・リー、シュージー・リウ、タイ・ヤン・リウ、レンキアン・ルオ、アルル・メネズ、タオ・クィン、フランク・セイデShuangzhi Wu、インチェ・シア、ドンドン・ザン、ジルイ・ジャン、ミン・ゾウ。2018. 英語ニュース翻訳に自動中国語で人間のパリティを達成. http://arxiv.org/abs/1803.05567
彼、ディとシャイア、インスとチン、タオと王、リウェイとユー、ネンガイとリウ、タイヤンと馬、ウェイイン。2016. 機械翻訳のためのデュアルラーニング.神経情報処理システムの進歩 29.ページ 820 から 828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
マーシン・ジュンツィス=ダウムント2018a. ノイズラパラレルコーポラのデュアル条件クロスエントロピーフィルタリング。機械翻訳に関する第3回会議の議事録:共有タスクペーパーベルギー、ページ 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
マーシン・ジュンツィス=ダウムント2018b. マイクロソフトの WMT2018 ニュース翻訳タスクへの提出: 心配を停止し、データを愛することを学んだ方法.機械翻訳に関する第3回会議の議事録:共有タスクペーパーベルギー、ページ 425-430. https://www.aclweb.org/anthology/W18-6415/
マーシン・ジュンツィス=ダウムント、ケネス・ヒーフィールド、ヒウ・ホアン、ローマン・グルンドキエヴィッチ、アンソニー・アウエ。2018a. マリアン: C++ で費用対効果の高い高品質のニューラルマシン翻訳.ニューラル機械翻訳と生成に関する第2回ワークショップの議事録オーストラリア、メルボルン、ページ 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
マルシン・ジュンツィス=ダウムント、ローマン・グルンドキエヴィッチ、トマス・ドウォジャク、ヒウ・ホアン、ケネス・ヒーフィールド、トム・ネッカーマン、フランク・セイド、ウルリッヒ・ゲルマン、アルハム・フィクリ・アジ、ニコライ・ボゴイチェフ、アンドレ・F・マーティンス、アレクサンドラ・バーチ2018b. マリアン: C++ での高速ニューラルマシン翻訳.ACL 2018の議事録、システムデモンストレーション。オーストラリア、メルボルン、ページ 116-121. https://www.aclweb.org/anthology/P18-4020/
ユン・キムとアレクサンダー・M・ラッシュ2016. シーケンスレベルの知識蒸留.自然言語処理の経験的方法に関する2016年会議の議事録で, EMNLP 2016, オースティン, テキサス州, 2016年11月1-4日, ページ 1317-1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
フィリップ・コーンヒウ・ホアン2007. ファクタリング翻訳モデル。自然言語処理と計算自然言語学習の実証的方法に関する2007年合同会議(EMNLP-CoNLL)の議事録プラハ, チェコ, ページ 868-876. https://www.aclweb.org/anthology/D07-1091/
リコ・センリッチバリー・ハドウ2016. 言語入力機能は、ニューラルマシンの翻訳を改善します。機械翻訳に関する第1回会議の議事録:第1巻、研究論文ドイツ、ベルリン、83-91ページ。 https://www.aclweb.org/anthology/W16-2209/
ヴァスワニ、アシッシュとシェイザー、ノアムとパルマー、ニキとウスコレイト、ヤコブとジョーンズ、リオンとゴメス、エイダンNとカイザー、ルーカスとポロスヒン、イリア。2017. 注意が必要なすべてです。神経情報処理システムの進歩 30.ページ 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

マイクロソフト翻訳ブログ