Οι έμφυλες μεταφράσεις της Bing αντιμετωπίζουν την προκατάληψη στη μετάφραση
Είμαστε ενθουσιασμένοι που ανακοινώνουμε ότι, από σήμερα, οι αρσενικές και θηλυκές εναλλακτικές μεταφράσεις είναι διαθέσιμες όταν μεταφράζετε από τα αγγλικά στα ισπανικά, γαλλικά ή ιταλικά. Μπορείτε να δοκιμάσετε αυτό το νέο χαρακτηριστικό και στις δύο γλώσσες Αναζήτηση Bing Και Μεταφραστής Bing κάθετα.
Τα τελευταία χρόνια, ο τομέας της μηχανικής μετάφρασης (ΜΤ) έχει φέρει επανάσταση με την εμφάνιση των μοντέλων μετασχηματισμού, οδηγώντας σε τεράστια βελτίωση της ποιότητας. Ωστόσο, τα μοντέλα που βελτιστοποιήθηκαν για να συλλάβουν τις στατιστικές ιδιότητες των δεδομένων που συλλέγονται από τον πραγματικό κόσμο μαθαίνουν ακούσια ή ακόμη και ενισχύουν τις κοινωνικές προκαταλήψεις που εντοπίζονται σε αυτά τα δεδομένα.
Η τελευταία μας έκδοση είναι ένα βήμα προς τη μείωση μιας από αυτές τις προκαταλήψεις, συγκεκριμένα της προκατάληψης του φύλου που είναι διαδεδομένη στα συστήματα ΜΤ. Το Bing Translator παρήγαγε πάντα μια ενιαία μετάφραση για μια πρόταση εισόδου, ακόμη και όταν οι μεταφράσεις θα μπορούσαν να έχουν άλλες παραλλαγές φύλου, συμπεριλαμβανομένων θηλυκών και αρσενικών παραλλαγών. Σύμφωνα με το Αρχές υπεύθυνης τεχνητής νοημοσύνης της Microsoft, θέλουμε να διασφαλίσουμε ότι παρέχουμε σωστές εναλλακτικές μεταφράσεις και ότι είμαστε πιο ανοιχτοί σε όλα τα φύλα. Στο πλαίσιο αυτού του ταξιδιού, το πρώτο μας βήμα είναι να παρέχουμε θηλυκές και αρσενικές μεταφραστικές παραλλαγές.
Το φύλο εκφράζεται διαφορετικά στις διάφορες γλώσσες. Για παράδειγμα, στα αγγλικά, η λέξη δικηγόρος μπορεί να αναφέρεται είτε σε αρσενικό είτε σε θηλυκό άτομο, αλλά στα ισπανικά, abogada θα αναφερόταν σε μια γυναίκα δικηγόρο, ενώ abogado θα αναφερόταν σε έναν άνδρα. Ελλείψει πληροφοριών σχετικά με το γένος ενός ουσιαστικού όπως το "δικηγόρος" σε μια αρχική πρόταση, τα μοντέλα ΜΤ μπορεί να καταφύγουν στην επιλογή ενός αυθαίρετου γένους για το ουσιαστικό στη γλώσσα-στόχο. Συχνά, αυτές οι αυθαίρετες αναθέσεις φύλου ευθυγραμμίζονται με στερεότυπα, διαιωνίζοντας επιβλαβείς κοινωνικές προκαταλήψεις (Stanovsky et al., 2019- Ciora et al., 2021) και οδηγώντας σε μεταφράσεις που δεν είναι πλήρως ακριβείς.
Στο παράδειγμα που ακολουθεί, παρατηρείτε ότι κατά τη μετάφραση ουδέτερων ως προς το φύλο προτάσεων από τα αγγλικά στα ισπανικά, το μεταφρασμένο κείμενο ακολουθεί τον στερεότυπο ρόλο του φύλου, δηλαδή ο δικηγόρος μεταφράζεται ως άνδρας.
Καθώς δεν υπάρχει κανένα συμφραζόμενο στην αρχική πρόταση που να υπονοεί το φύλο του δικηγόρου, η μετάφραση με την παραδοχή ότι πρόκειται είτε για άνδρα είτε για γυναίκα δικηγόρο θα ήταν και οι δύο έγκυρες. Τώρα, το Bing Translator παράγει μεταφράσεις με θηλυκές και αρσενικές μορφές.
Σχεδιασμός συστήματος
Στόχος μας ήταν να σχεδιάσουμε το σύστημά μας ώστε να πληροί τα ακόλουθα βασικά κριτήρια για την παροχή εναλλακτικών λύσεων με βάση το φύλο:
- Οι θηλυκές και οι αρσενικές παραλλαγές θα πρέπει να έχουν ελάχιστες διαφορές, εκτός από εκείνες που απαιτούνται για την απόδοση του φύλου.
- Θέλαμε να καλύψουμε ένα ευρύ φάσμα προτάσεων στις οποίες είναι δυνατές πολλαπλές έμφυλες εναλλακτικές λύσεις.
- Θέλαμε να διασφαλίσουμε ότι οι μεταφράσεις διατηρούν το νόημα της αρχικής αρχικής πρότασης.
Ανίχνευση ασάφειας φύλου
Προκειμένου να ανιχνεύσουμε με ακρίβεια την ασάφεια φύλου στο πηγαίο κείμενο, χρησιμοποιούμε ένα μοντέλο συμπερασμού για να αναλύσουμε εισόδους που περιέχουν έμψυχα ουσιαστικά. Για παράδειγμα, εάν ένα δεδομένο κείμενο εισόδου περιέχει μια ουδέτερη ως προς το φύλο λέξη επαγγέλματος, θέλουμε να παρέχουμε έμφυλες εναλλακτικές λύσεις για αυτήν μόνο όταν το φύλο της δεν μπορεί να προσδιοριστεί από άλλες πληροφορίες στην πρόταση. Για παράδειγμα: Κατά τη μετάφραση μιας αγγλικής πρότασης "Η δικηγόρος συνάντησε τον οδηγό της στο λόμπι του ξενοδοχείου." στα γαλλικά μπορούμε να προσδιορίσουμε ότι η δικηγόρος είναι γυναίκα, ενώ το φύλο του οδηγού είναι άγνωστο.
Δημιουργία εναλλακτικής μετάφρασης
Όταν η αρχική πρόταση είναι διφορούμενη ως προς το φύλο, εξετάζουμε την έξοδο του μεταφραστικού μας συστήματος για να αποφασίσουμε αν είναι δυνατή μια εναλλακτική ερμηνεία ως προς το φύλο. Εάν ναι, προχωράμε στον προσδιορισμό του καλύτερου τρόπου αναθεώρησης της μετάφρασης. Ξεκινάμε με την κατασκευή ενός συνόλου υποψήφιων μεταφράσεων-στόχων με την επαναδιατύπωση της αρχικής μετάφρασης. Εφαρμόζουμε γλωσσικούς περιορισμούς με βάση τις σχέσεις εξάρτησης για να διασφαλίσουμε τη συνέπεια στις προτεινόμενες εναλλακτικές λύσεις και να κλαδέψουμε τις λανθασμένες υποψήφιες.
Ωστόσο, σε πολλές περιπτώσεις, ακόμη και μετά την εφαρμογή των περιορισμών μας, μένουμε με πολλαπλές υποψήφιες επανεγγραφές για την εναλλακτική μετάφραση με βάση το φύλο. Για να καθορίσουμε την καλύτερη επιλογή, αξιολογούμε κάθε υποψήφια με βαθμολόγηση με το μεταφραστικό μας μοντέλο. Αξιοποιώντας το γεγονός ότι μια καλή επαναδιατύπωση με βάση το φύλο θα είναι επίσης μια ακριβής μετάφραση της αρχικής πρότασης, είμαστε σε θέση να εξασφαλίσουμε υψηλή ακρίβεια στην τελική μας παραγωγή.
Αξιοποίηση διαχειριζόμενων διαδικτυακών σημείων στο Azure Machine Learning
Το εναλλακτικό χαρακτηριστικό gendered στο Bing φιλοξενείται στο διαχειριζόμενα online τελικά σημεία στο Azure Machine Learning. Τα διαχειριζόμενα διαδικτυακά τελικά σημεία παρέχουν μια ενοποιημένη διεπαφή για την επίκληση και τη διαχείριση των αναπτύξεων μοντέλων σε υπολογιστές που διαχειρίζεται η Microsoft με το κλειδί στο χέρι. Μας επιτρέπουν να επωφεληθούμε από τα κλιμακούμενα και αξιόπιστα τελικά σημεία χωρίς να μας απασχολεί η διαχείριση της υποδομής. Αυτό το περιβάλλον εξαγωγής συμπερασμάτων επιτρέπει επίσης την επεξεργασία μεγάλου αριθμού αιτήσεων με χαμηλή καθυστέρηση. Η ικανότητά μας να δημιουργούμε και να αναπτύσσουμε την υπηρεσία gender debias με τα πιο πρόσφατα πλαίσια και τεχνολογίες έχει βελτιωθεί σημαντικά μέσω της χρήσης των διαχειριζόμενων χαρακτηριστικών εξαγωγής συμπερασμάτων στο Azure Machine Learning. Με την αξιοποίηση αυτών των χαρακτηριστικών, καταφέραμε να διατηρήσουμε χαμηλό COGS (κόστος πωληθέντων προϊόντων) και να διασφαλίσουμε ευθεία συμμόρφωση με την ασφάλεια και την προστασία της ιδιωτικής ζωής.
Πώς μπορείτε να συνεισφέρετε;
Για να διευκολύνουμε την πρόοδο στη μείωση των προκαταλήψεων λόγω φύλου στη ΜΤ, δημοσιεύουμε ένα σώμα δοκιμών που περιέχει παραδείγματα μετάφρασης με σαφήνεια φύλου από τα αγγλικά στα ισπανικά, γαλλικά και ιταλικά. Κάθε αγγλική αρχική πρόταση συνοδεύεται από πολλαπλές μεταφράσεις, που καλύπτουν κάθε πιθανή παραλλαγή του φύλου.
Το σύνολο δοκιμών μας είναι κατασκευασμένο ώστε να είναι δύσκολο, μορφολογικά πλούσιο και γλωσσικά ποικίλο. Αυτό το σώμα ήταν καθοριστικό για τη διαδικασία ανάπτυξής μας. Αναπτύχθηκε με τη βοήθεια ενός δίγλωσσου γλωσσολόγου με σημαντική μεταφραστική εμπειρία. Δημοσιεύουμε επίσης ένα τεχνικό έγγραφο που αναλύει λεπτομερώς το σώμα δοκιμών και τη μεθοδολογία και τα εργαλεία αξιολόγησης.
GATE: Μια πρόκληση για τα παραδείγματα μετάφρασης με διφορούμενο φύλο - Έγγραφο
GATE: Ένα σύνολο προκλήσεων για παραδείγματα μετάφρασης με διφορούμενο φύλο - Σύνολο δοκιμών
Πορεία προς τα εμπρός
Μέσω αυτής της εργασίας στοχεύουμε να βελτιώσουμε την ποιότητα της παραγωγής ΜΤ σε περιπτώσεις διφορούμενου φύλου στην πηγή, καθώς και να διευκολύνουμε την ανάπτυξη καλύτερων και πιο περιεκτικών εργαλείων επεξεργασίας φυσικής γλώσσας (NLP) γενικότερα. Η αρχική μας έκδοση επικεντρώνεται στη μετάφραση από τα αγγλικά στα ισπανικά, τα γαλλικά και τα ιταλικά. Προχωρώντας προς τα εμπρός, σχεδιάζουμε να επεκταθούμε σε νέα ζεύγη γλωσσών, καθώς και να καλύψουμε πρόσθετα σενάρια και τύπους προκαταλήψεων.
Συντελεστές:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.