Πολιτικά λανθασμένες μηχανές
Ενώ εμείς στην ομάδα Machine μεταφραστικών βλέπουμε αυξανόμενη κυκλοφορία στις διάφορες προσφορές μας τους τελευταίους μήνες, παρατηρήσαμε ένα ξαφνικό χτύπημα στην κυκλοφορία χθες. Έχοντας μεγαλώσει στην Αγκάθα Κρίστι και τον Σέρλοκ Χολμς, τέτοια μυστήρια είναι ακαταμάχητα για μένα – και αρκετοί άλλοι άνθρωποι στην ομάδα ήταν εξίσου περίεργοι να ανακαλύψουν τι προκάλεσε αυτό το ξαφνικό χτύπημα. Σκεφτήκαμε ότι η IE8 δραστηριότητα/ΕπιταχυντήTeh Αγγελιοφόρος bot, Αναζήτηση μεταφράσεων, Μεταφράσεις γραφείου Όλοι δείχνουν την ίδια ανοδική τάση με τις ημέρες πριν και ως εκ τούτου δεν ήταν ο συγκεκριμένος λόγος για αυτό το χτύπημα.
Τελικά, μπορέσαμε να αναγνωρίσουμε έναν πιθανό λόγο για τον οποίο βλέπαμε αυτή την ακίδα. Η Κοινότητα των χρηστών μας βρήκε μια ανωμαλία στο πώς ο κινητήρας μηχανικής μετάφρασης επεξεργάστηκε τη μετάφραση για διάφορα ονόματα από τα αγγλικά στα Γερμανικά. Ήταν αναμενόμενο ότι όταν η μηχανή μεταφράζει το όνομα του υποψηφίου ενός μέρους σε κάποιον από το άλλο μέρος, δεδομένης της σημερινής πολιτικής ατμόσφαιρας κατά την περίοδο των εκλογών στις ΗΠΑ, θα καταλήξει ως είδηση. Ενώ χαιρετίζουμε όλους τους νέους χρήστες που ήρθαν να ελέγξουν αυτό το φαινόμενο – θέλαμε να μοιραστούμε με τους χρήστες μας τον λόγο για τον οποίο αυτά τα πράγματα φαίνεται να συμβαίνουν από καιρό σε καιρό με στατιστικά εκπαιδευμένο συστήματα μηχανικής μετάφρασης από εμάς και άλλους.
Ένας μηχανισμός μετάφρασης στατιστικής μηχανής είναι εκπαιδευμένος σε παρτίδες και πολλά παράλληλα δεδομένα, δηλαδή δεδομένα που υπάρχουν τόσο σε γλώσσα προέλευσης (π.χ. Αγγλικά) όσο και σε γλώσσα-στόχο (π.χ. Γερμανικά), όπου η πηγή και ο στόχος είναι οι μεταφράσεις του ενός του άλλου. Ο κινητήρας μας είναι εκπαιδευμένος σε εκατομμύρια προτάσεις για κάθε ζεύγος γλωσσών που υποστηρίζουμε. Για να προπονηθώ σε ένα συγκεκριμένο σώμα δεδομένων – ίσως σε έναν μεγάλο αριθμό αντικειμένων που έχουν μετατραπεί στα Αγγλικά, τα οποία έχουν μεταφραστεί στα Γερμανικά — πρέπει πρώτα να σπάσουμε αυτό το σώμα σε ποινές. Μετά την καταδίκη της ποινής, τροφοδοτούμε τις προτάσεις που προκύπτουν σε μια πρόταση, με μοναδικό σκοπό να βρούμε ποιες προτάσεις στην πλευρά της πηγής ευθυγραμμίζονται με τις προτάσεις στην πλευρά του στόχου. Αυτό δεν είναι ασήμαντο έργο, δεδομένου ότι μια πρόταση στη μία πλευρά θα μπορούσε θεωρητικά να ευθυγραμμιστεί με μία ή περισσότερες προτάσεις για το στόχο (ή ενδεχομένως καθόλου!). Οι αλιγάτορες θα κάνουν μερικές φορές λάθη και θα παραπλανήσουν μια πρόταση με μια άλλη που στην πραγματικότητα δεν είναι μετάφραση. Αυτό μπορεί να οδηγήσει σε ορισμένες εσφαλμένες παρατηρήσεις, ειδικά αν υπάρχουν λέξεις στην προέλευση και τον στόχο που εμφανίζονται σπάνια. Δεδομένου ότι η μεταφραστική μηχανή μας είναι στατιστική, εξαρτάται πολύ από τις συχνότητες συνεμφάνισης μεταξύ των λέξεων στην πηγή και τα δεδομένα προορισμού. Εάν ορισμένες λέξεις δεν συμβαίνουν συχνά — τα ονόματα των ανθρώπων, για παράδειγμα, μπορούν να συμβούν μόνο μερικές φορές σε ένα σώμα εκατομμυρίων προτάσεων — η έλλειψη συχνότητας μπορεί να οδηγήσει σε εσφαλμένες εκφράσεις που προκύπτουν από λανθασμένες «εικασίες» μεταξύ πηγής και στόχου (δηλ., χαμηλή ορισμένες πιθανότητες που έχουν αντιστοιχιστεί σε συγκεκριμένες λέξεις προέλευσης και στόχου). Αυτό μπορεί να οδηγήσει σε μερικές κωμικό γκάμες στο μεταφραστικά μας σύστημα.
Έτσι, έτσι το "μηχάνημα" αποφάσισε να μεταφράσει με έναν τρόπο που κατέληξε με την Κοινότητα να το αποδίδει στην αίσθηση του χιούμορ της ομάδας μας. Ενώ εξακολουθούμε να εργαζόμαστε σκληρά για να εξασφαλίσουμε την κατάλληλη ευθυγράμμιση, πρέπει να αναμένεται από ένα στατιστικό σύστημα που θα βασίζεται σε εκατομμύρια σε δισεκατομμύρια λέξεις που θα μπορούσε να επαναλάβει μια τέτοια κατάσταση.
Το σημερινό θέμα με την ευθυγράμμιση θα πρέπει τώρα να επιλυθεί, αλλά παροτρύνουμε την κοινότητά μας να συνεχίσει να μας βοηθά να εντοπίζουμε οποιεσδήποτε τέτοιες καταστάσεις επικοινωνώντας μαζί μας μέσω αυτού του ιστολογίου.
-Βίκραμ