דלג לתוכן הראשי
תרגום
דף זה תורגם באופן אוטומטי על-ידי שירות תרגום המכונות של Microsoft מתרגם. למד עוד

בלוג מתרגם של מיקרוסופט

התרגומים המגדריים של Bing מתמודדים עם הטיה בתרגום

דה-הטיה מגדרית
עיבוד תלת מימדי של סמלי מגדר.

אנו נרגשים להכריז כי נכון להיום, תרגומים חלופיים לזכר ולנקבה זמינים לתרגום מאנגלית לספרדית, צרפתית או איטלקית. אתה יכול לנסות את התכונה החדשה הזו בשניהם חיפוש בינג ו מתרגם בינג אנכיים.

במהלך השנים האחרונות, תחום תרגום המכונה (MT) עבר מהפכה עם הופעתם של דגמי שנאים, מה שהוביל לשיפורים אדירים באיכות. עם זאת, מודלים שעברו אופטימיזציה כדי ללכוד את המאפיינים הסטטיסטיים של נתונים שנאספו מהעולם האמיתי לומדים בשוגג או אפילו מגבירים הטיות חברתיות שנמצאו בנתונים אלה.

המהדורה האחרונה שלנו היא צעד לקראת הפחתת אחת ההטיות הללו, במיוחד הטיה מגדרית הנפוצה במערכות MT. 'מתרגם Bing' תמיד הפיק תרגום יחיד עבור משפט קלט, גם כאשר התרגומים היו יכולים לכלול וריאציות מגדריות אחרות, כולל גרסאות נשיות וגבריות. בהתאם ל עקרונות הבינה המלאכותית האחראית של Microsoftאנו רוצים להבטיח שאנו מספקים תרגומים חלופיים נכונים ומכילים יותר את כל המגדרים., כחלק מהמסע הזה הצעד הראשון שלנו הוא לספק גרסאות תרגום נשיות וגבריות.

מגדר בא לידי ביטוי באופן שונה בשפות שונות. לדוגמה, באנגלית, המילה עורך דין יכולה להתייחס לאדם זכר או נקבה, אבל בספרדית, אבוגדה יפנה לעורכת דין אישה, בעוד אבוגאדו יתייחס לזכר. בהיעדר מידע על המין של שם עצם כמו 'עורך דין' במשפט מקור, מודלים MT עשויים לנקוט בבחירת מין שרירותי עבור שם העצם בשפת היעד. לעתים קרובות, הקצאות מגדריות שרירותיות אלה מתיישבות עם סטריאוטיפים, ומנציחות הטיה חברתית מזיקה (Stanovsky et al., 2019; Ciora et al., 2021) ומובילים לתרגומים שאינם מדויקים לחלוטין.

בדוגמה שלהלן, אתה מבחין כי בעת תרגום משפטים ניטרליים מבחינה מגדרית מאנגלית לספרדית, הטקסט המתורגם עוקב אחר התפקיד המגדרי הסטריאוטיפי, כלומר, עורך דין מתורגם כזכר.

תרגום עם הטיה מגדרית
צילום מסך של תרגום טקסט באנגלית "בואו נקבל את דעתו של עורך הדין שלנו בנושא זה." לשפה הספרדית עם הטיה מגדרית.

מכיוון שאין הקשר במשפט המקור המרמז על מינו של עורך הדין, הפקת תרגום עם ההנחה של עורך דין זכר או נקבה תהיה תקפה. כעת, מתרגם Bing מפיק תרגומים עם צורות נשיות וגבריות כאחד.

תרגום טקסט אנגלי מעורפל מגדרי לספרדית
צילום מסך של תרגום טקסט באנגלית "בואו נקבל את חוות דעתו של עורך הדין שלנו בנושא זה." לשפה הספרדית עם תרגומים ספציפיים למגדר.

תכנון מערכת

שמנו לנו למטרה לעצב את המערכת שלנו כך שתעמוד בקריטריונים המרכזיים הבאים למתן חלופות מגדריות:

  1. לגרסאות הנשיות והגבריות צריכים להיות הבדלים מינימליים למעט אלה הדרושים להעברת מגדר.
  2. רצינו לכסות מגוון רחב של משפטים שבהם חלופות מגדריות מרובות אפשריות.
  3. רצינו להבטיח שהתרגומים ישמרו על המשמעות של משפט המקור.

זיהוי עמימות מגדרית

על מנת לזהות במדויק עמימות מגדרית בטקסט המקור, אנו משתמשים במודל של coreference כדי לנתח קלטים המכילים שמות עצם מונפשים. לדוגמה, אם טקסט קלט נתון מכיל מילת מקצוע ניטרלית מבחינה מגדרית, אנו רוצים לספק חלופות מגדריות עבורה רק כאשר לא ניתן לקבוע את המגדר שלה על ידי מידע אחר במשפט. לדוגמה: בתרגום משפט באנגלית "עורכת הדין פגשה את הנהג שלה בלובי המלון." לצרפתית אנו יכולים לקבוע כי עורך הדין הוא נקבה, בעוד שמין הנהג אינו ידוע.

תרגום טקסט אנגלי מעורפל מגדרי לצרפתית
צילום מסך של תרגום טקסט באנגלית "עורכת הדין פגשה את הנהג שלה בלובי המלון." לשפה הצרפתית.

יצירת תרגום חלופי

כאשר משפט המקור הוא מגדרי באופן דו-משמעי, אנו בוחנים את הפלט של מערכת התרגום שלנו כדי להחליט אם פרשנות מגדרית חלופית אפשרית. אם כן, אנו ממשיכים לקבוע את הדרך הטובה ביותר לשנות את התרגום. אנו מתחילים בבניית קבוצה של תרגומי יעד מועמדים על ידי שכתוב התרגום המקורי. אנו מפעילים אילוצים לשוניים המבוססים על יחסי תלות כדי להבטיח עקביות בחלופות המוצעות ולגזום את המועמדים השגויים.

עם זאת, במקרים רבים, גם לאחר החלת האילוצים שלנו, אנו נותרים עם שכתובים מרובים של מועמדים לתרגום החלופי המגדרי. כדי לקבוע את האפשרות הטובה ביותר, אנו מעריכים כל מועמד על ידי ניקוד אותו באמצעות מודל התרגום שלנו. על ידי מינוף העובדה ששכתוב מגדרי טוב יהיה גם תרגום מדויק של משפט המקור, אנו מסוגלים להבטיח דיוק גבוה בפלט הסופי שלנו.

תכנון מערכת של תפיחה מחדש מגדרית
דיאגרמה המציגה את עיצוב המערכת של ניפוח מחדש של מגדר.

מינוף נקודות קצה מקוונות מנוהלות ב- Azure Machine Learning

התכונה החלופית המגדרית ב- Bing מתארחת ב- נקודות קצה מקוונות מנוהלות ב- Azure Machine Learning. נקודות קצה מקוונות מנוהלות מספקות ממשק מאוחד להפעלה ולניהול של פריסות מודל במחשוב המנוהל על-ידי Microsoft באופן מוכן לשימוש. הם מאפשרים לנו לנצל נקודות קצה מדרגיות ואמינות מבלי לדאוג לניהול התשתיות. סביבת הסקה זו מאפשרת גם עיבוד של מספר רב של בקשות עם השהיה נמוכה. היכולת שלנו ליצור ולפרוס את שירות ההטיה המגדרית עם המסגרות והטכנולוגיות העדכניות ביותר שופרה מאוד באמצעות שימוש בתכונות הסקה מנוהלות ב- Azure Machine Learning. על ידי מינוף תכונות אלה, הצלחנו לשמור על COGS (עלות הסחורות שנמכרו) נמוכות ולהבטיח תאימות אבטחה ופרטיות פשוטה.

איך אתה יכול לתרום?

כדי להקל על ההתקדמות בהפחתת ההטיה המגדרית ב- MT, אנו משחררים קורפוס בדיקות המכיל דוגמאות תרגום מעורפלות מגדרית מאנגלית לספרדית, צרפתית ואיטלקית. כל משפט מקור באנגלית מלווה במספר תרגומים, המכסים כל וריאציה מגדרית אפשרית.

מערך המבחנים שלנו בנוי להיות מאתגר, עשיר מבחינה מורפולוגית ומגוון מבחינה לשונית. קורפוס זה סייע בתהליך הפיתוח שלנו. הוא פותח בעזרת בלשנים דו לשוניים עם ניסיון תרגום משמעותי. כמו כן, אנו משחררים מאמר טכני הדן בפירוט בקורפוס המבחנים ובמתודולוגיה ובכלים להערכה.

GATE: אתגר שנקבע לדוגמאות תרגום דו-משמעיות מגדרית – נייר

GATE: אתגר שנקבע לדוגמאות תרגום מעורפלות מבחינה מגדרית – ערכת מבחנים

נתיב קדימה

באמצעות עבודה זו אנו שואפים לשפר את איכות פלט MT במקרים של מגדר מקור מעורפל, כמו גם להקל על פיתוח כלים טובים ומכילים יותר לעיבוד שפה טבעית (NLP) באופן כללי. המהדורה הראשונית שלנו מתמקדת בתרגום מאנגלית לספרדית, צרפתית ואיטלקית. בהמשך, אנו מתכננים להתרחב לצמדי שפות חדשים, כמו גם לכסות תרחישים וסוגים נוספים של הטיות.

קרדיטים:

רנג'יטה נאיק, ספנסר ראריק, סונדר פודל, וארון מת'ור, ג'שוואנת' קומאר צ'נדרלה, צ'אראן מוהאן, לי שוורץ, סטיבן נגוין, עמית בהגוואט, וישאל צ'אודהארי.