מתרגם מיקרוסופט משחרר תרגום ספרותי בסינית
בעת קריאה קדום סינית שירה, לעתים קרובות אנו מתפעלים מהמילים הנפלאות מאוד שסופרים קדומים יכולים להשתמש בהן כדי לתאר אנשים, אירועים, חפצים וסצנות. זהו אוצר תרבותי מפואר שהושאר מאחור עבורנו. עם זאת, בדומה לשייקספיר'פסוקים בשפה האנגלית, הסינית הספרותית המשמשת משוררים אלה קשה לעתים קרובות לאנשים מודרניים להבין, ואת המשמעויות ואת הדקויות הטמונות בו לעתים קרובות לאיבוד.
כדי לפתור בעיה זו, חוקרים במיקרוסופט מחקר אסיה אימצו את טכניקות תרגום המכונה העצבית העדכניות ביותר כדי לאמן מודלים תרגום ישיר בין סינית ספרותית לסינית מודרנית, אשר גם תוצאות יצירת יכולות תרגום בין סינית ספרותית ו יותר מ-90 שפות אחרות וניבים במתרגם של Microsoft. נכון לעכשיו, תרגום סיני ספרותי שולב לתוך יישום Microsoft תרגום, מתרגם שירותים קוגניטיביים תכלת הרקיעומספר מוצרי Microsoft הנתמכים על-ידי שירותי המתרגם של Microsoft.,
תמונה: הציור מתוך "ההר המערבי בגשם ערפילי" מאת שן ז'ו, שושלת מינג. השיר הסיני העתיק על הציור הוא מ יונג ליו, שושלת סונג הצפונית. השיר מתאר את הנוף האביבי בדרום סין במהלך פסטיבל צ'ינגמינג ואת השגשוג של חיי החברה.
מתן אפשרות ליותר אנשים להעריך את הקסם של התרבות הסינית המסורתית
סינית ספרותית היא נושאת חשובה של התרבות הסינית המסורתית. ספרים וטקסטים שופעים מימי קדם הקליטו את סין'תרבות עשירה ועמוקה בחמשת אלפים השנים האחרונות. המחשבות והחוכמה שנצברו ונכללו בהן ראויות לחקירה וחשיבה מתמשכות.
בעזרת תרגום מכונה, תיירים יכולים כעת להבין טקסטים ושירים סיניים עתיקים שנכתבו על מבנים ומונומנטים היסטוריים, לתלמידים יש כעת כלי נוסף שיעזור להם ללמוד סינית, וחוקרים העוסקים באיסוף ותרגום טקסטים עתיקים יכולים להיות פרודוקטיביים יותר.
דונגדונג ג'אנג, חוקר ראשי במיקרוסופט מחקר אסיה, אמר: "מנקודת מבט טכנית, סינית ספרותית יכולה להיחשב כשפה נפרדת. ברגע שהתרגום בין סינית ספרותית לסינית מודרנית מתממש, התרגום בין סינית ספרותית לשפות אחרות כמו אנגלית, צרפתית וגרמנית הופך לעניין כמובן."
הקושי הגדול ביותר של מודל באני מלאכותי לתרגום סיני ספרותי: נתוני הדרכה קטנים
המרכיב הקריטי ביותר באימון מודל באני הוא נתונים. רק כאשר נפח הנתונים גדול מספיק ואיכותו גבוהה מספיק ניתן אתה לאמן מודל מדויק יותר. בתרגום מכונה, האימון של המודל דורש נתונים דו-לשוניים: נתוני טקסט מקוריים ותוני שפת יעד. התרגום של סינית ספרותית הוא מיוחד מאוד, כפי שהוא'זו לא שפה המשמשת בחיי היומיום. לכן, בהשוואה לתרגום של שפות אחרות, נתוני ההדרכה של התרגום הסיני הספרותי קטנים מאוד, מה שאינו תורם להכשרת מודלים של תרגום מכונה.
למרות שחוקרי Microsoft Research Asia אספו נתונים ספרותיים וסינים מודרניים זמינים לציבור בשלבים המוקדמים, לא ניתן להשתמש ישירות בנתונים המקוריים. ניקוי נתונים צריך להתבצע כדי לנרמל נתונים ממקורות שונים, פורמטים שונים, כמו גם ברוחב מלא /סימני פיסוק בחצי רוחב, כאמצעי למזער את ההפרעה של נתונים לא חוקיים על אימון מודל. בדרך זו, הנתונים הזמינים בפועל באיכות גבוהה מופחתים עוד יותר.
לדברי Shuming Ma, חוקר במיקרוסופט מחקר אסיה, על מנת להפחית את בעיית דלילות הנתונים, החוקרים ערכו כמות רבה של סינתזת נתונים ועבודת הגדלת, כולל:
ראשית, תו נפוץ– יישור והרחבה מבוססים כדי להגדיל את גודל נתוני האימון. שונה מ- תרגומים בין סינית ושפות אחרות כגון אנגלית, צרפתית, רוסית וכו ', סינית ספרותית וסינית מודרנית משתמשים באותה ערכת תווים. תוך ניצול תכונה זו, חוקרים ב- Microsoft Research Asia השתמשו באלגוריתמים חדשניים כדי לאפשר לתרגום מכונה להיזכר בתווים נפוצים, לבצע יישור טבעי ולאחר מכן להרחיב עוד יותר למילים, ביטויים ומשפטים קצרים, ובכך לסנתז כמות גדולה של נתונים שמיש.
שנית, עיוות מבנה המשפט כדי לשפר את החוסן של תרגום מכונה. לגבי שובר בטקסטים ושירים, החוקרים הוסיפו מספר גרסאות כדי להפוך את המכונות מקיפות יותר בלימוד שירים עתיקים. עבור אנשים, גם כאשר הם רואים משפט מובנה באופן חריג, כגון שיר מחולק לקווים המבוססים על קצב ולא משפטים מלאים, הם עדיין יכולים לחבר את החלקים ולהבין את זה. אבל עבור מודל תרגום שמעולם לא ראה פילוח כזה, סביר להניח שהוא יתבלבל. לכן, טרנספורמציה של תבנית נתונים יכולה לא רק להרחיב את כמות נתוני האימון, אלא גם לשפר את החוסן של אימון מודל התרגום.
שלישית, ערוך הדרכה מסורתית ופשוטה בתרגום תווים כדי להגדיל את יכולת הסתגלות המודל. בסינית, דמויות מסורתיות קיימות הן בסינית הספרותית והן בסינית המודרנית. כאשר החוקרים אימנו את המודל, על מנת לשפר את יכולת ההסתגלות של המודל, הם לא רק ממונפים נתונים בסינית פשוטה, אלא גם הוסיפו נתונים בסינית המסורתית, כמו גם נתונים מעורבבים עם תווים מסורתיים ופשוטים. לכן, המודל יכול להבין הן את התוכן המסורתי והן את התוכן הפשוט, מה שמוביל לתוצאות תרגום מדויקות יותר.
רביעית, להגביר את ההכשרה של מילים בשפה זרה כדי לשפר את הדיוק של התרגום. כאשר מתרגמים את הסינית המודרנית לסינית ספרותית, לעתים קרובות יש מילים מודרניות הנגזרות ממילים בשפה זרה ומילים חדשות שמעולם לא הופיעו בסינית עתיקה, כגון "מיקרוסופט", "מחשב", "רכבת מהירה", ורבים אחרים כמותו. כדי להתמודד עם בעיה זו, החוקרים אימנו מודל קטן לזיהוי ישויות. המודל תרגם תחילה את משמעות המילה מחוץ לישות, ולאחר מכן מילא את הישות בחזרה כדי להבטיח את הדיוק של המחשב'עיבוד המילים הזרות.
תמונה: Tהוא סינית ספרותית תהליך תרגום
בנוסף, עבור סגנונות כתיבה לא רשמיים כגון בלוגים, פורומים, Weibo, וכן הלאה, מודל תרגום המכונה הוכשר במיוחד כדי לשפר עוד יותר את חוסן התרגום בין סינית מודרנית וספרותית.
דונגדונג ז'אנג הביע: "בהתבסס על מערכת התרגום הנוכחית, נמשיך להעשיר את ערכת הנתונים ולשפר את שיטת אימון הדגמים כדי להפוך אותה לחזקה ורב-תכליתית יותר. בעתיד, השיטה יכולה לשמש לא רק לתרגום סיני ספרותי, אלא גם ניתן להרחיב לתרחישי יישום אחרים."