الترجمة متعددة اللغات على نطاق واسع: 10000 زوج لغة وما بعدها
مايكروسوفت على السعي ل الذكاء الاصطناعي على مقياس مع طموح كبير لتمكين الجيل القادم من التجارب الذكاء الاصطناعي. مترجم مايكروسوفت ZCode فريق العمل جنبا إلى جنب مع مايكروسوفت مشروع تورينج ومايكروسوفت بحوث آسيا لتعزيز اللغة والدعم متعدد اللغات في صميم هذه المبادرة. نواصل دفع الحدود مع نماذج متعددة اللغات لدعم سيناريوهات اللغة المختلفة عبر Microsoft. في الصيف الماضي، أعلنا عن نطاقنا الواسع خليط متعدد اللغات من الخبراء نموذج مع ديب سبيد التي يمكن أن تتفوق على نماذج فردية ثنائية اللغة على نطاق واسع. في الآونة الأخيرة ، أحدث تورينج نموذج تمثيل اللغة العالمية (تي-أولرف5) ، نموذج مايكروسوفت التي أنشأتها مرة أخرى للدولة من الفن وفي الجزء العلوي من جوجل XTREME المتصدرين العامة في ذلك الوقت. في الآونة الأخيرة ، أعلنت مايكروسوفت أكبر ميجاترون تورينج NLG 530B نموذج المعلمات.
اختتم المؤتمر السنوي للترجمة الآلية (المعروف أيضا باسم WMT 2021) الأسبوع الماضي في بونتا كانا الجميلة، جمهورية الدومينيكان. تجمع WMT باحثين من جميع أنحاء مجال الترجمة الآلية بأكمله ، سواء الصناعة أو الأوساط الأكاديمية ، للمشاركة في سلسلة من المهام المشتركة ، كل منها يحدد معيارا في مجال مهم من الترجمة الآلية لدفع المجال إلى آفاق جديدة.
تنافس فريق Microsoft Translator ZCode ، بالتعاون مع فريق تورينج ومايكروسوفت ريسيرش آسيا ، في مسار "الترجمة متعددة اللغات على نطاق واسع" ، والذي يتألف من مهمة كاملة للترجمة بين جميع الاتجاهات ال 10000 عبر 101 لغة ، ومهمتين صغيرتين: واحدة تركز على 5 لغات في وسط وجنوب أوروبا ، وواحدة على 5 لغات جنوب شرق آسيا. فاز نموذج Microsoft ZCode-DeltaLM بجميع المهام الثلاث بهوامش ضخمة ، بما في ذلك كسب 10 + نقطة لا يصدق على طراز M2M100 في المهمة الكبيرة التي تم تقييمها على أزواج لغة ضخمة 10000. (نتائج المهمة المشتركة WMT 2021 حول الترجمة الآلية متعددة اللغات على نطاق واسعوينزيك وآخرون، WMT 2021).
الشكل 1: النتائج الرسمية (درجات BLEU) على المهمة الكاملة والمهام الصغيرة1 في مهمة WMT 2021 الواسعة النطاق متعددة اللغات للترجمة المشتركة
نهج ZCode-دلتاLM
في هذا بلوق وظيفة ، دعونا نلقي نظرة تحت غطاء محرك السيارة في الفوز مايكروسوفت ZCode - DeltaLM النموذج. نقطة انطلاقنا كانت دلتا لام (DeltaLM: التشفير فك التشفير التدريب المسبق لتوليد اللغة والترجمة عن طريق زيادة التشفير متعدد اللغات المدربة مسبقا)، أحدث في سلسلة قوية على نحو متزايد من نماذج لغة متعددة اللغات على نطاق واسع المدربين مسبقا من مايكروسوفت.
DeltaLM هو نموذج التشفير فك التشفير ، ولكن بدلا من التدريب من الصفر ، يتم تهيئة من نموذج سابق التدريب على أحدث التشفير فقط ، على وجه التحديد (تولرف3). في حين أن تهيئة التشفير واضحة ، فإن فك التشفير أقل من ذلك ، لأنه يضيف انتباها متقاطعا إلى الاهتمام الذاتي للمفكر. دلتاLM يحل هذه المشكلة مع بنية متشابكة جديدة، حيث الاهتمام الذاتي والاهتمام المتبادل بالتناوب بين الطبقات، مع الاهتمام الذاتي المستخدمة في طبقات غريبة وعبر الاهتمام المستخدمة في الطبقات حتى. مع هذا interleaving، يطابق بنية فك الترميز التشفير، وهكذا يمكن أيضا أن تكون تهيئة بنفس الطريقة من TULRv3.
يتم زيادة DeltaLM من خلال التعلم متعدد المهام ZCode قوية: التعلم متعدد المهام للترجمة الآلية العصبية متعددة اللغات. تظهر نماذجنا أن الجمع بين تعدد المهام والتعلم متعدد اللغات يمكن أن يحسن بشكل كبير التدريب على نماذج اللغة المدربة مسبقا على نطاق واسع. هذا النموذج متعدد اللغات التعلم هو الاستفادة من التحيز الاستقرائي والانتظام من عدة مهام ولغات في وقت واحد لأداء أفضل على مختلف المهام المصب. نحن نستخدم مهمة الترجمة، وdenoising مهمة التشفير التلقائي والترجمة تمتد مهمة الفساد كما هو مبين في الشكل أدناه.
الفوز في مسار الترجمة متعدد اللغات على نطاق واسع
لبناء نظام ترجمة متعدد اللغات على نطاق واسع (أنظمة ترجمة آلية متعددة اللغات من Microsoft لمهمة WMT21 المشتركة)، بدأنا مع zCode- DeltaLM، وأضاف بعض الحيل.
نحن نطبق التعلم التدريجي، والتدريب أولا نموذج مع 24 طبقات التشفير و 12 طبقات فك التشفير، ثم مواصلة التدريب مع 12 طبقات التشفير المضافة، مما أدى إلى عميق 36 طبقة التشفير. لتغطية جميع أزواج اللغات، نقوم بإنشاء بيانات متوازية مزدوجة الزائفة حيث كلا الجانبين من البيانات الموازية الاصطناعية، التي يترجمها النموذج من اللغة الإنجليزية. كما نطبق الترجمة الخلفية التكرارية لتوليد البيانات الاصطناعية. نحن نطبق تعلم المناهج الدراسية، بدءا من بيانات التدريب الصاخبة بأكملها، ثم نقلها إلى مجموعة فرعية نظيفة. نحن إعادة الوزن هدف الترجمة لصالح البيانات الموازية على الترجمة الخلفية والبيانات المزدوجة الزائفة موازية. نحن نطبق أخذ عينات درجة الحرارة لتحقيق التوازن بين أزواج اللغة. لكل زوج من اللغات، نختار، استنادا إلى مجموعة ديف، ما إذا كان يفضل الترجمة المباشرة أو الترجمة المحورية من خلال اللغة الإنجليزية.
وضع كل ذلك معا، كنا نعرف أن لدينا نظام مذهل متعدد اللغات على نطاق واسع، ولكن النتائج الرسمية على مجموعة اختبار أعمى تجاوزت توقعاتنا. سجلنا 2.5 إلى 9 BLEU قبل المنافس التالي ، و 10 إلى 21 نقطة BLEU قبل نموذج M2M-175 الأساسي. على اختبار ديف قارنا ضد أكبر M2M-615 نموذج, التي تغلبنا عليها أيضا من قبل 10 إلى 18 نقطة.
ما وراء الترجمة: جيل اللغة العالمية
في حين أننا متحمسون للفوز الكبير في WMT 2021 ، فإن ما هو أكثر إثارة هو أنه على عكس المنافسين الآخرين ، فإن نموذج ZCode-DeltaLM ليس مجرد نموذج ترجمة ، بل هو نموذج لغة مشفرة مفككة عام ، قابل للاستخدام لجميع أنواع مهام الجيل خارج الترجمة. هذا حقا تمكين نماذجنا لأداء جيد جدا على مختلف اللغات مهام توليد اللغة الطبيعية.
وصلنا إلى SOTA جديدة في العديد من مهام الجيل شعبية من معيار GEM، بما في ذلك ويكيلينغوا (تلخيص)، وتبسيط النص (WikiAuto)، والبنية إلى النص (WebNLG). نموذج DeltaLM-ZCode يتفوق على نطاق واسع نماذج أكبر من ذلك بكثير مثل mT5 XL (3.7B) الذي تدرب أيضا على بيانات أكبر بكثير كذلك. وقد أظهر ذلك كفاءة وتعدد استخدامات النماذج مما أدى إلى أداء قوي في العديد من المهام.
الشكل 2 - الأرقام 2- الأرقام التي تم أداء (RL عشرات) من ZCode-DeltaLM على تلخيص وتبسيط النص المهام في المعيار GEM
استشرافا للمستقبل
وصلت الترجمة الآلية متعددة اللغات إلى نقطة حيث أنها تؤدي بشكل جيد جدا، تتجاوز أنظمة ثنائية اللغة، على حد سواء لغات الموارد المنخفضة والعالية. وقد ثبت أن خليط من الخبراء (وزارة الخبراء) نماذج لتكون مناسبة جدا لتوسيع نطاق مثل هذه النماذج كما هو مبين في GShard. نحن نستكشف كيفية توسيع نطاق هذه النماذج بكفاءة مع خليط من الخبراء: تدريب وزارة التعليم القابلة للتطوير والفعالة للنماذج متعددة اللغات. نماذج وزارة التعليم مع بيانات متعددة اللغات ضخمة والتدريب متعدد المهام غير خاضعة للرقابة فرصة غير مسبوقة لمثل هذه النماذج لتوفير أنظمة عالمية حقا التي يمكن أن تمكن فريق مترجم مايكروسوفت للقضاء على الحواجز اللغوية في جميع أنحاء العالم، فضلا عن دعم مجموعة متنوعة من مهام توليد اللغة الطبيعية.
الاعترافات
نود أن نعترف ونشكر فرانسيسكو جوزمان وفريقه الذي جمع مجموعة اختبار فلوريس متعددة اللغات على نطاق واسع ونظم هذا المسار WMT مع مثل هذا التقييم على نطاق واسع.