Ιστολόγιο μετάφρασης της Microsoft

Ο Μεταφραστής της Microsoft κυκλοφορεί λογοτεχνική κινεζική μετάφραση

Αναρτήθηκε στις 25 Αυγούστου 202130 Αυγούστου 2021διά Microsoft Translator

Κατά την ανάγνωση αρχαίος Κινεζικά ποίηση, συχνά θαυμάζουμε τις πολύ υπέροχες λέξεις που θα μπορούσαν να χρησιμοποιήσουν οι αρχαίοι συγγραφείς για να περιγράψουν ανθρώπους, γεγονότα, αντικείμενα και σκηνές. Αυτός είναι ένας υπέροχος πολιτιστικός θησαυρός που μας έχει μείνει πίσω. Ωστόσο, παρόμοια με τον Σαίξπηρ'S στίχοι στην αγγλική γλώσσα, τα λογοτεχνικά κινέζικα που χρησιμοποιούνται από αυτούς τους ποιητές είναι συχνά δύσκολο για τους σύγχρονους ανθρώπους να κατανοήσουν, και οι έννοιες και οι λεπτές αποχρώσεις που ενσωματώνονται σε αυτό συχνά χάνονται.

Για να λύσουν αυτό το πρόβλημα, οι ερευνητές της Microsoft Research Asia υιοθέτησαν τις τελευταίες τεχνικές μετάφρασης νευρωνικών μηχανών για την εκπαίδευση μοντέλων άμεσης μετάφρασης μεταξύ λογοτεχνικών κινεζικών και σύγχρονων κινεζικών, γεγονός που έχει επίσης ως στόχο τη δημιουργία μεταφραστικών δυνατοτήτων μεταξύ λογοτεχνικών κινεζικών και περισσότερες από 90 άλλες γλώσσες και διαλέκτους στον Μεταφραστή της Microsoft. Επί του παρόντος, η λογοτεχνική κινεζική μετάφραση έχει ενσωματωθεί στο Η εφαρμογή Microsoft Translator, Μεταφραστής γνωστικών υπηρεσιών AzureΚαι ορισμένα προϊόντα της Microsoft που υποστηρίζονται από τις υπηρεσίες Microsoft Translator.

Εικόνα: Ο πίνακας από το "Δυτικό Βουνό στην Ομιχλώδη Βροχή" του Σεν Ζου, Δυναστεία των Μινγκ. Το αρχαίο κινέζικο ποίημα στον πίνακα είναι από Γιονγκ Λιου, Δυναστεία Των Βόρειων Σονγκ. Το ποίημα απεικονίζει το ανοιξιάτικο τοπίο στη νότια Κίνα κατά τη διάρκεια του Φεστιβάλ Qingming και την ευημερία της κοινωνικής ζωής.

Επιτρέποντας σε περισσότερους ανθρώπους να εκτιμήσουν τη γοητεία του παραδοσιακού κινεζικού πολιτισμού

Τα λογοτεχνικά κινέζικα είναι ένας σημαντικός φορέας του παραδοσιακού κινεζικού πολιτισμού. Ογκώδη βιβλία και κείμενα από την αρχαιότητα έχουν καταγράψει την Κίνα'πλούσιος και βαθύς πολιτισμός τα τελευταία πέντε χιλιάδες χρόνια. Οι σκέψεις και η σοφία που συσσωρεύονται και περιέχονται σε αυτές είναι άξιες συνεχούς εξερεύνησης και σκέψης.

Με τη βοήθεια της μηχανικής μετάφρασης, οι τουρίστες μπορούν τώρα να κατανοήσουν αρχαία κινεζικά κείμενα και ποιήματα γραμμένα σε ιστορικά κτίρια και μνημεία, οι μαθητές έχουν τώρα ένα επιπλέον εργαλείο για να τους βοηθήσουν να μάθουν κινέζικα και οι ερευνητές που ασχολούνται με τη συλλογή και μετάφραση αρχαίων κειμένων μπορούν να είναι πιο παραγωγικοί.

Ο Dongdong Zhang, κύριος ερευνητής στην Microsoft Research Asia, δήλωσε: «Από τεχνική άποψη, τα λογοτεχνικά κινέζικα μπορούν να θεωρηθούν ξεχωριστή γλώσσα. Μόλις πραγματοποιηθεί η μετάφραση μεταξύ λογοτεχνικών κινεζικών και σύγχρονων κινεζικών, η μετάφραση μεταξύ λογοτεχνικών κινεζικών και άλλων γλωσσών όπως τα αγγλικά, τα γαλλικά και τα γερμανικά γίνεται φυσικά θέμα.»

Μεγαλύτερη δυσκολία του λογοτεχνικού κινεζικού μοντέλου μετάφρασης AI: Λίγα δεδομένα κατάρτισης

Το πιο κρίσιμο στοιχείο της εκπαίδευσης μοντέλων τεχνητής αιώρης είναι τα δεδομένα. Μόνο όταν ο όγκος των δεδομένων είναι αρκετά μεγάλος και η ποιότητά του αρκετά υψηλή Cna μπορείτε να εκπαιδεύστε ένα πιο ακριβές μοντέλο. Στη μηχανική μετάφραση, η εκπαίδευση του μοντέλου απαιτεί δίγλωσσα δεδομένα: πρωτότυπα δεδομένα κειμένου και δεδομένα γλώσσας προορισμού. Η μετάφραση των λογοτεχνικών κινεζικών είναι πολύ ιδιαίτερη, όπως αυτό»δεν είναι μια γλώσσα που χρησιμοποιείται στην καθημερινή ζωή. Ως εκ τούτου, σε σύγκριση με τη μετάφραση άλλων γλωσσών, τα δεδομένα κατάρτισης της λογοτεχνικής κινεζικής μετάφρασης είναι πολύ μικρά, γεγονός που δεν ευνοεί την κατάρτιση μοντέλων μηχανικής μετάφρασης.

Παρόλο που οι ερευνητές της Microsoft Research Asia συνέλεξαν πολλά δημόσια διαθέσιμα λογοτεχνικά και σύγχρονα κινεζικά δεδομένα στα αρχικά στάδια, τα αρχικά δεδομένα δεν μπορούν να χρησιμοποιηθούν άμεσα. Ο καθαρισμός δεδομένων πρέπει να διεξάγεται για την ομαλοποίηση δεδομένων από διαφορετικές πηγές, διάφορες μορφές, καθώς και πλήρους πλάτους/σημεία στίξης μισού πλάτους, ως μέσο ελαχιστοποίησης της παρεμβολής μη έγκυρων δεδομένων στην εκπαίδευση μοντέλων. Με τον τρόπο αυτό, τα πραγματικά διαθέσιμα δεδομένα υψηλής ποιότητας μειώνονται περαιτέρω.

Σύμφωνα με τον Shuming Ma, ερευνητή στην Microsoft Research Asia, προκειμένου να μειωθεί το ζήτημα της αραίωσης των δεδομένων, οι ερευνητές έχουν πραγματοποιήσει μεγάλο όγκο εργασιών σύνθεσης και αύξησης δεδομένων, όπως:

Πρώτον, κοινός χαρακτήρας– ευθυγράμμιση και επέκταση με βάση την αύξηση του μεγέθους των δεδομένων εκπαίδευσης. Διαφορετικός από Οι μεταφράσεις μεταξύ κινεζικών και άλλων γλωσσών όπως αγγλικά, γαλλικά, ρωσικά κ.λπ., τα λογοτεχνικά κινεζικά και τα σύγχρονα κινεζικά χρησιμοποιούν το ίδιο σύνολο χαρακτήρων. Εκμεταλλευόμενοι αυτό το χαρακτηριστικό, οι ερευνητές της Microsoft Research Asia έχουν χρησιμοποιήσει καινοτόμους αλγορίθμους για να επιτρέψουν στη μηχανική μετάφραση να ανακαλέσει κοινούς χαρακτήρες, να πραγματοποιήσει φυσική ευθυγράμμιση και στη συνέχεια να επεκταθεί περαιτέρω σε λέξεις, φράσεις και σύντομες προτάσεις, συνθέτοντας έτσι μεγάλο αριθμό χρησιμοποιήσιμων δεδομένων.

Δεύτερον, παραμορφωμένη δομή προτάσεων για τη βελτίωση της ευρωστίας της μηχανικής μετάφρασης. Σχετικά με Διαλείμματα σε κείμενα και ποιήματα, οι ερευνητές έχουν προσθέσει μια σειρά από παραλλαγές για να κάνουν τις μηχανές πιο ολοκληρωμένες στην εκμάθηση αρχαίων ποιημάτων. Για τους ανθρώπους, ακόμη και όταν βλέπουν μια πρόταση που είναι δομημένη αφύσικα, όπως ένα ποίημα που χωρίζεται σε γραμμές με βάση το ρυθμό και όχι πλήρεις προτάσεις, μπορούν ακόμα να ενώσουν τα μέρη και να το κατανοήσουν. Αλλά για ένα μοντέλο μετάφρασης που δεν έχει ξαναδεί τέτοια τμηματοποίηση, πιθανότατα θα μπερδευτεί. Ως εκ τούτου, ο μετασχηματισμός της μορφής δεδομένων μπορεί όχι μόνο να επεκτείνει τον όγκο των δεδομένων κατάρτισης, αλλά και να βελτιώσει την ευρωστία της κατάρτισης του μοντέλου μετάφρασης.

Τρίτον, διεξαγωγή παραδοσιακής και απλοποιημένης εκπαίδευσης μετάφρασης χαρακτήρων για την αύξηση της προσαρμοστικότητας των μοντέλων. Στα κινέζικα, παραδοσιακοί χαρακτήρες υπάρχουν τόσο στα λογοτεχνικά όσο και στα σύγχρονα κινέζικα. Όταν οι ερευνητές εκπαίδευσαν το μοντέλο, προκειμένου να βελτιώσουν την προσαρμοστικότητα του μοντέλου, όχι μόνο αξιοποίησε δεδομένα σε απλοποιημένα κινέζικα, αλλά πρόσθεσε επίσης δεδομένα στα παραδοσιακά κινέζικα, καθώς και δεδομένα αναμεμειγμένα με παραδοσιακούς και απλοποιημένους χαρακτήρες. Έτσι, το μοντέλο μπορεί να κατανοήσει τόσο το παραδοσιακό όσο και το απλοποιημένο περιεχόμενο, γεγονός που οδηγεί σε ακριβέστερα αποτελέσματα μετάφρασης.

Τέταρτον, να αυξηθεί η κατάρτιση των λέξεων ξένων γλωσσών για τη βελτίωση της ακρίβειας της μετάφρασης. Κατά τη μετάφραση των σύγχρονων κινεζικών σε λογοτεχνικά κινέζικα, υπάρχουν συχνά σύγχρονες λέξεις που προέρχονται από λέξεις ξένης γλώσσας και νέες λέξεις που δεν έχουν εμφανιστεί ποτέ στα αρχαία κινέζικα, όπως "Microsoft", "υπολογιστής", "σιδηρόδρομος υψηλής ταχύτητας" και πολλές άλλες παρόμοιες. Για να αντιμετωπίσουν αυτό το ζήτημα, οι ερευνητές εκπαίδευσαν ένα μικρό μοντέλο για να αναγνωρίσουν οντότητες. Το μοντέλο πρώτα μετέφρασε την έννοια της λέξης εκτός της οντότητας και στη συνέχεια συμπλήρωσε την οντότητα για να εξασφαλίσει την ακρίβεια του μηχανήματος'επεξεργασία των ξένων λέξεων.

Εικόνα: Tείναι λογοτεχνικά κινέζικα διαδικασία μετάφρασης

Επιπλέον, για άτυπα στυλ γραφής όπως ιστολόγια, φόρουμ, Weibo και ούτω καθεξής, το μοντέλο μηχανικής μετάφρασης έχει εκπαιδευτεί ειδικά για να βελτιώσει περαιτέρω την ευρωστία της μετάφρασης μεταξύ σύγχρονων και λογοτεχνικών κινεζικών.

Ο Dongdong Zhang δήλωσε: «Με βάση το τρέχον σύστημα μετάφρασης, θα συνεχίσουμε να εμπλουτίζουμε το σύνολο δεδομένων και να βελτιώνουμε τη μέθοδο εκπαίδευσης μοντέλων για να το κάνουμε πιο ισχυρό και ευέλικτο. Στο μέλλον, η μέθοδος μπορεί όχι μόνο να χρησιμοποιηθεί για λογοτεχνική κινεζική μετάφραση, αλλά μπορεί επίσης να επεκταθεί και σε άλλα σενάρια εφαρμογής."