آلات غير صحيحه سياسيا
في حين اننا في فريق الترجمة اليه قد شهدت زيادة حركه المرور إلى عروضنا المختلفة علي مدي الأشهر القليلة الماضية ، لاحظنا عثرة مفاجئ في حركه المرور أمس. بعد ان كبرت علي اجاثا كريستي وشرلوك هولمز ، مثل هذه الاسرار لا تقاوم بالنسبة لي-وكان عدد من الناس الآخرين علي الفريق مجرد الفضول لمعرفه ما تسبب في هذه عثرة مفاجئه. وظننا ان نشاط IE8/مسرع، فان رسول بوت, ترجمات البحث, ترجمات المكتب وكانت جميع تظهر نفس الاتجاه التصاعدي كما في الأيام السابقة ، التالي لم تكن السبب المحدد لهذه عثرة.
في نهاية المطاف ، تمكنا من تحديد أحد الأسباب المحتملة لماذا كنا نشهد هذا الارتفاع. وجد مجتمع المستخدمين لدينا غرائب في كيفيه معالجه محرك الترجمة اليه للترجمة لعده أسماء من الانجليزيه إلى المانيه. ومن المتوقع انه عندما يترجم المحرك اسم مرشح أحد الطرفين إلى شخص من الطرف الآخر ، نظرا للجو السياسي الحالي في الفترة التي تجري فيها الانتخابات الامريكيه ، فانه سينتهي به الأمر كاخبار. وفي حين اننا نرحب بالتاكيد بجميع المستخدمين الجدد الذين جاءوا للتحقق من هذه الظاهرة – أردنا ان نشارك مع مستخدمينا السبب الذي يجعل مثل هذه الأشياء تحدث من وقت لأخر مع أنظمه الترجمة اليه المدربة إحصائيا منا وغيرها.
يتم تدريب محرك الترجمة اليه الاحصائيه علي الكثير والكثير من البيانات المتوازية ، اي البيانات الموجودة في كل من لغة المصدر (مثل الانجليزيه) واللغة المستهدفة (مثل المانيه) ، حيث يكون المصدر والهدف هما ترجمات لبعضهما البعض. يتم تدريب المحرك علي الملايين من الجمل لكل زوج اللغة التي ندعمها. من أجل التدريب علي مجموعه معينه من البيانات-ربما عدد كبير من مقالات اللغة الانجليزيه التي ترجمت إلى المانيه-يجب علينا أولا ان كسر هذا الجسم إلى الجمل. وبعد ان يتم كسر الجملة ، فاننا نطعم الجمل الناتجة إلى الجملة ، والغرض الوحيد منها هو العثور علي الجمل التي علي الجانب المصدر تتماشي مع الجمل علي الجانب المستهدف. هذه ليست مهمة تافه ، لان الجملة علي جانب واحد يمكن تصور محاذاة مع واحد أو أكثر من الجمل علي الهدف (أو ربما لا شيء علي الإطلاق!). وفي بعض الأحيان يخطئ الشخص الآخر ، ويخطئ الجملة الأخرى التي هي في الواقع ليست ترجمه. وهذا يمكن ان يؤدي إلى بعض الغرابة ، خاصه إذا كان هناك كلمات في المصدر والهدف التي تحدث بشكل متكرر. وبما ان محرك الترجمة لدينا إحصائي ، فانه يعتمد بشكل كبير علي الترددات المشتركة بين الكلمات في المصدر وبيانات الهدف. وإذا كانت بعض الكلمات نادرا ما تحدث-فان أسماء الناس ، علي سبيل المثال ، قد تحدث مرات قليله عبر مجموعه من ملايين الجمل-فان عدم التردد يمكن ان يؤدي إلى الأخطاء الناتجة عن "التخمينات" غير الصحيحة بين المصدر والهدف (اي انخفاض الاحتمالات المعينة لمصدر معين والكلمات المستهدفة). وهذا يمكن ان يؤدي إلى بعض الزلات الهزلية في نظام الترجمة لدينا.
لذلك ، هذه هي الطريقة التي قررت "اله" لترجمه بطريقه التي انتهت مع المجتمع ينسب ذلك إلى روح الدعابة من فريقنا. وبينما نواصل العمل بجد لضمان التوافق السليم ، فانه من المتوقع من نظام إحصائي يبني علي الملايين إلى بلايين الكلمات التي يمكن ان تتكرر مثل هذه الحالة.
يجب حل المشكلة الحالية مع المحاذاة الآن ولكننا نحث مجتمع المستخدمين لدينا للحفاظ علي مساعدتنا في تحديد اي حالات من هذا القبيل عن طريق الاتصال بنا من خلال هذا بلوق.
-فيكرام