مترجم مايكروسوفت تطلق الترجمة الصينية الأدبية

تم النشر على 25 أغسطس 202130 أغسطس/آب 2021ب Microsoft Translator

عند القراءة قديم الصينية الشعر ، ونحن نتعجب في كثير من الأحيان في كلمات رائعة جدا يمكن أن تستخدم الكتاب القدماء لوصف الناس والأحداث والأشياء ، والمشاهد. هذا كنز ثقافي رائع ترك لنا. ومع ذلك ، على غرار شكسبير'ق الآيات في اللغة الإنجليزية ، والصينية الأدبية المستخدمة من قبل هؤلاء الشعراء غالبا ما يكون من الصعب على الناس في العصر الحديث لفهم ، والمعاني والدقيقة جزءا لا يتجزأ من داخله كثيرا ما تضيع.

لحل هذه المشكلة، اعتمد الباحثون في مايكروسوفت للبحوث آسيا أحدث تقنيات الترجمة الآلية العصبية لتدريب نماذج الترجمة المباشرة بين الصينية الأدبية والصينية الحديثة، مما يؤدي أيضا إلى خلق قدرات الترجمة بين الصينية الأدبية و أكثر من 90 لغة أخرى واللهجات في مايكروسوفت المترجم. حاليا، تم دمج الترجمة الصينية الأدبية في مايكروسوفت التطبيق المترجم, Azure المترجم الخدمات المعرفية، وعدد من منتجات Microsoft التي تدعمها خدمات Microsoft Translator.

الصورة : اللوحة من "الجبل الغربي في المطر الضبابي" من قبل شن تشو ، أسرة مينغ. القصيدة الصينية القديمة على اللوحة هي من يونغ ليو، سلالة سونغ الشمالية. وتصور القصيدة مشهد الربيع فى جنوب الصين خلال مهرجان تشينغمينغ وازدهار الحياة الاجتماعية .

تمكين المزيد من الناس من تقدير سحر الثقافة الصينية التقليدية

الأدب الصيني هو الناقل المهم للثقافة الصينية التقليدية. وقد سجلت الكتب الضخمة والنصوص من العصور القديمة الصين'ق ثقافة غنية وعميقة على مدى السنوات الخمسة آلاف الماضية. الأفكار والحكمة المتراكمة والواردة فيها تستحق الاستكشاف والتفكير المستمر.

وبمساعدة الترجمة الآلية، يمكن للسياح الآن فهم النصوص والقصائد الصينية القديمة المكتوبة على المباني والمعالم التاريخية، والطلاب لديهم الآن أداة إضافية لمساعدتهم على تعلم اللغة الصينية، ويمكن للباحثين الذين يشاركون في تجميع وترجمة النصوص القديمة أن يكونوا أكثر إنتاجية.

وقال دونغ دونغ تشانغ الباحث الرئيسى فى شركة ميكروسوفت للابحاث الاسيوية " من منظور فنى يمكن اعتبار اللغة الصينية الادبية لغة منفصلة . وبمجرد أن تتحقق الترجمة بين الصينية الأدبية والصينية الحديثة، تصبح الترجمة بين اللغة الصينية الأدبية وغيرها من اللغات مثل الإنجليزية والفرنسية والألمانية مسألة طبيعية".

أكبر صعوبة في الترجمة الأدبية الصينية نموذج الذكاء الاصطناعي : بيانات التدريب قليلا

12 - والبيانات هي العنصر الأكثر أهمية في التدريب النموذجي الذكاء الاصطناعي. فقط عندما يكون حجم البيانات كبيرا بما فيه الكفاية وجودته عالية بما فيه الكفاية Cna لك تدريب نموذج أكثر دقة. في الترجمة الآلية، يتطلب تدريب النموذج بيانات ثنائية اللغة: بيانات النص الأصلي وبيانات اللغة المستهدفة. ترجمة الصينية الأدبية هي خاصة جدا, كما هو'ق ليست لغة تستخدم في الحياة اليومية. ولذلك، بالمقارنة مع ترجمة لغات أخرى، فإن بيانات التدريب للترجمة الصينية الأدبية صغيرة جدا، مما لا يؤدي إلى تدريب نماذج الترجمة الآلية.

على الرغم من أن الباحثين مايكروسوفت بحوث آسيا جمعت الكثير من البيانات الأدبية والصينية الحديثة المتاحة للجمهور في المراحل المبكرة، لا يمكن استخدام البيانات الأصلية مباشرة. يجب إجراء تنظيف البيانات لتطبيع البيانات من مصادر مختلفة ، وأشكال مختلفة ، وكذلك العرض الكامل /علامات ترقيم بنصف العرض, كوسيلة لتقليل تداخل البيانات غير الصالحة في التدريب النموذجي. وبهذه الطريقة، يتم تقليل البيانات الفعلية المتاحة عالية الجودة.

وفقا لShming ما ، وهو باحث في مايكروسوفت للبحوث آسيا ، من أجل الحد من مسألة ندرة البيانات ، أجرى الباحثون قدرا كبيرا من تجميع البيانات والعمل المعزز ، بما في ذلك :

أولا، حرف مشترك– المحاذاة القائمة والتوسع لزيادة حجم البيانات التدريبية. مختلف عن الترجمات بين الصينية وغيرها من اللغات مثل الإنجليزية والفرنسية والروسية ، وما إلى ذلك ، الصينية الأدبية والصينية الحديثة استخدام نفس مجموعة الحرف. الاستفادة من هذه الميزة، استخدم الباحثون في Microsoft Research Asia خوارزميات مبتكرة للسماح للترجمة الآلية باستدعاء الأحرف الشائعة، وإجراء المحاذاة الطبيعية، ثم التوسع بشكل أكبر في الكلمات والعبارات والجمل القصيرة، وبالتالي تجميع كمية كبيرة من البيانات القابلة للاستخدام.

ثانيا، تشوه هيكل الجملة لتحسين قوة الترجمة الآلية. فيما يتعلق فواصل في النصوص والقصائد ، وأضاف الباحثون عددا من المتغيرات لجعل الآلات أكثر شمولا في تعلم القصائد القديمة. بالنسبة للناس ، حتى عندما يرون الجملة التي يتم تنظيمها بشكل غير طبيعي ، مثل قصيدة مجزأة إلى خطوط على أساس الإيقاع بدلا من الجمل الكاملة ، فإنها لا تزال قادرة على وضع الأجزاء معا وفهمها. ولكن بالنسبة لنموذج الترجمة الذي لم يشهد مثل هذا التقسيم من قبل، فمن المرجح أن يكون مرتبكا. ولذلك، فإن تحويل تنسيق البيانات لا يمكن أن يوسع كمية بيانات التدريب فحسب، بل يحسن أيضا من قوة التدريب على نموذج الترجمة.

ثالثا، إجراء تدريب تقليدي ومبسط على ترجمة الشخصيات لزيادة قابلية التكيف مع النموذج. في الصينية، توجد الشخصيات التقليدية في كل من الصينية الأدبية والحديثة. عندما قام الباحثون بتدريب النموذج، من أجل تحسين قدرة النموذج على التكيف، لم يكتفوا بالاستفادة من البيانات باللغة الصينية المبسطة، ولكن أضافوا أيضا بيانات باللغة الصينية التقليدية، فضلا عن بيانات مختلطة مع الأحرف التقليدية والمبسطة. وبالتالي، يمكن للنموذج فهم المحتويات التقليدية والمبسطة، مما يؤدي إلى نتائج ترجمة أكثر دقة.

رابعا، زيادة تدريب الكلمات الناطقة بلغات أجنبية لتحسين دقة الترجمة. عند ترجمة الصينية الحديثة إلى الصينية الأدبية، غالبا ما تكون هناك كلمات حديثة مشتقة من كلمات بلغة أجنبية وكلمات جديدة لم تظهر أبدا باللغة الصينية القديمة، مثل "مايكروسوفت"، "الكمبيوتر"، "السكك الحديدية عالية السرعة"، وغيرها الكثير مثل ذلك. للتعامل مع هذه المسألة، قام الباحثون بتدريب نموذج صغير للتعرف على الكيانات. قام النموذج أولا بترجمة معنى الكلمة خارج الكيان ، ثم ملأ الكيان مرة أخرى لضمان دقة الجهاز'ق تجهيز الكلمات الأجنبية.

الصورة : تيهو الأدبية الصينية عملية الترجمة

بالإضافة إلى ذلك ، لأنماط الكتابة غير الرسمية مثل المدونات والمنتديات و Weibo وما إلى ذلك ، تم تدريب نموذج الترجمة الآلية خصيصا لزيادة تحسين قوة الترجمة بين الصينية الحديثة والأدبية.

وقال دونغ دونغ تشانغ " انه استنادا الى نظام الترجمة الحالى ، سنواصل اثراء مجموعة البيانات وتحسين اسلوب التدريب النموذجى لجعله اكثر قوة وتنوعا . وفي المستقبل، قد لا تستخدم هذه الطريقة للترجمة الصينية الأدبية فحسب، بل يمكن أيضا توسيعها لتشمل سيناريوهات تطبيق أخرى".

مايكروسوفت المترجم مدونه