Μετάβαση στο κύριο περιεχόμενο
Μεταφραστής
Αυτή η σελίδα έχει μεταφραστεί αυτόματα από την υπηρεσία μηχανικής μετάφρασης της Microsoft. Μάθε περισσότερα

Μηχανική μετάφραση

Τι είναι η μηχανική μετάφραση;

Τα συστήματα μηχανικής μετάφρασης είναι εφαρμογές ή ηλεκτρονικές υπηρεσίες που χρησιμοποιούν τεχνολογίες μηχανικής εκμάθησης για τη μετάφραση μεγάλων ποσοτήτων κειμένου από και προς οποιαδήποτε από τις υποστηριζόμενες γλώσσες τους. Η υπηρεσία μεταφράζει ένα κείμενο "προέλευσης" από μια γλώσσα σε μια διαφορετική γλώσσα "προορισμού".

Αν και οι έννοιες πίσω από την τεχνολογία μηχανικής μετάφρασης και τις διεπαφές για τη χρήση της είναι σχετικά απλές, η επιστήμη και οι τεχνολογίες πίσω από αυτήν είναι εξαιρετικά πολύπλοκες και φέρνουν σε επαφή αρκετές τεχνολογίες αιχμής, ιδίως τη βαθιά μάθηση ( τεχνητή νοημοσύνη), μεγάλα δεδομένα, γλωσσολογία, υπολογιστικό νέφος και API ιστού.

Από τις αρχές της 2010s, μια νέα τεχνολογία τεχνητής νοημοσύνης, βαθιά νευρικά δίκτυα (γνωστή και ως βαθιά μάθηση), επέτρεψε στην τεχνολογία της αναγνώρισης ομιλίας να φθάσει σε ένα επίπεδο ποιότητας που επέτρεψε στην ομάδα μεταφράστρια της Microsoft να συνδυάσει την αναγνώριση ομιλίας με το βασική τεχνολογία μετάφρασης κειμένου για την έναρξη μιας νέας τεχνολογίας μετάφρασης ομιλίας.

Ιστορικά, η βασική τεχνική μηχανικής μάθησης που χρησιμοποιείται στον κλάδο ήταν η στατιστική μηχανή μετάφραση (SMT). Η SMT χρησιμοποιεί προηγμένη στατιστική ανάλυση για να εκτιμήσει τις καλύτερες δυνατές μεταφράσεις για μια λέξη, δεδομένου του πλαισίου μερικών λέξεων. Η SMT έχει χρησιμοποιηθεί από τα μέσα της δεκαετίας του 2000 από όλους τους κύριους παρόχους μεταφραστικών υπηρεσιών, συμπεριλαμβανομένης της Microsoft.

Η έλευση της νευρομηχανικής μετάφρασης (NMT) προκάλεσε ριζική μετατόπιση της μεταφραστικής τεχνολογίας, με αποτέλεσμα πολύ υψηλότερης ποιότητας μεταφράσεις. Αυτή η μεταφραστική τεχνολογία άρχισε να αναπτύσσει για χρήστες και προγραμματιστές στο τελευταίο μέρος του 2016.

Τόσο οι τεχνολογίες μετάφρασης SMT όσο και NMT έχουν δύο κοινά στοιχεία:

  1. Και οι δύο απαιτούν μεγάλες ποσότητες μεταφρασμένου περιεχομένου πριν από τον άνθρωπο (έως εκατομμύρια μεταφραστεί ποινών) για την εκπαίδευση των συστημάτων.
  2. Ούτε ενεργούν ως δίγλωσσα λεξικά, μεταφράζοντας λέξεις που βασίζονται σε μια λίστα πιθανών μεταφράσεων, αλλά μεταφράζονται με βάση το περιβάλλον της λέξης που χρησιμοποιείται σε μια πρόταση.

Τι είναι το Μεταφραστής;

Υπηρεσίες μεταφραστών και ομιλίας, μέρος της Γνωστικές υπηρεσίες συλλογή API, είναι υπηρεσίες μηχανικής μετάφρασης από τη Microsoft.

Μετάφραση κειμένου

Ο μεταφραστής χρησιμοποιείται από ομάδες της Microsoft από το 2007 και είναι διαθέσιμος ως API για πελάτες από το 2011. Ο μεταφραστής χρησιμοποιείται εκτενώς εντός της Microsoft. Ενσωματώνεται σε όλες τις ομάδες τοπικής προσαρμογής προϊόντων, υποστήριξης και ηλεκτρονικής επικοινωνίας. Αυτή η ίδια υπηρεσία είναι επίσης προσβάσιμη, χωρίς επιπλέον κόστος, μέσα από γνωστά προϊόντα της Microsoft, όπως BingCortanaΆκρο της MicrosoftOfficeSharepointSkypeκαι Yammer.

Ο μεταφραστής μπορεί να χρησιμοποιηθεί σε εφαρμογές web ή προγράμματος-πελάτη σε οποιαδήποτε πλατφόρμα υλικού και με οποιοδήποτε λειτουργικό σύστημα για την εκτέλεση μετάφρασης γλώσσας και άλλων λειτουργιών που σχετίζονται με τη γλώσσα, όπως ο εντοπισμός γλώσσας, το κείμενο σε ομιλία ή το λεξικό.

Αξιοποιώντας τη βιομηχανική τεχνολογία REST, ο προγραμματιστής αποστέλλει κείμενο προέλευσης (ή ήχο για μετάφραση ομιλίας) στην υπηρεσία με μια παράμετρο που υποδεικνύει τη γλώσσα προορισμού και η υπηρεσία αποστέλλει πίσω το μεταφρασμένο κείμενο για να χρησιμοποιηθεί ο υπολογιστής-πελάτης ή η εφαρμογή Web.

Η υπηρεσία μεταφραστή είναι μια υπηρεσία Azure που φιλοξενείται σε κέντρα δεδομένων της Microsoft και επωφελείται από την ασφάλεια, την επεκτασιμότητα, την αξιοπιστία και την ασταμάτητη διαθεσιμότητα που λαμβάνουν και άλλες υπηρεσίες cloud της Microsoft.

Μετάφραση ομιλίας

Η τεχνολογία μετάφρασης ομιλίας μεταφραστών ξεκίνησε στα τέλη του 2014 ξεκινώντας από το Skype Translator και είναι διαθέσιμη ως ανοιχτό API για τους πελάτες από τις αρχές του 2016. Είναι ενσωματωμένη στη ζωντανή δυνατότητα του Microsoft Translator, το Skype, τη μετάδοση σύσκεψης Skype και τις εφαρμογές Microsoft Translator για Android και iOS.

Η μετάφραση ομιλίας είναι τώρα διαθέσιμη μέσω της ομιλίας της Microsoft, μια ολοκληρωμένη σειρά πλήρως προσαρμόσιμων υπηρεσιών για την αναγνώριση ομιλίας, τη μετάφραση ομιλίας και τη σύνθεση ομιλίας (κείμενο σε ομιλία).

Πώς λειτουργεί η μετάφραση κειμένου;

Υπάρχουν δύο κύριες τεχνολογίες που χρησιμοποιούνται για τη μετάφραση κειμένου: η παλαιότερη, η στατιστική μηχανή μετάφραση (SMT), και η νεότερη γενιά μία, νευρωνική μηχανή μετάφρασης (NMT).

Στατιστική μηχανή μετάφραση

Η εφαρμογή της Στατιστικής Μηχανικής Μετάφρασης (SMT) από το Μεταφραστή βασίζεται σε περισσότερο από μια δεκαετία έρευνας φυσικής γλώσσας στη Microsoft. Αντί να γράφουν χειροποίητους κανόνες για τη μετάφραση μεταξύ γλωσσών, τα σύγχρονα μεταφραστικά συστήματα προσεγγίζουν τη μετάφραση ως πρόβλημα εκμάθησης του κειμένου μεταξύ γλωσσών από υπάρχουσες ανθρώπινες μεταφράσεις και αξιοποιώντας τις πρόσφατες προόδους στις εφαρμοσμένες στατιστικές και τη μηχανική μάθηση.

Η λεγόμενη "παράλληλη corpora" ενεργεί ως ένα σύγχρονο Rosetta Stone σε μαζικές αναλογίες, παρέχοντας λέξη, φράση, και ιδιωματικές μεταφράσεις στο πλαίσιο για πολλά ζεύγη γλωσσών και τομείς. Οι τεχνικές στατιστικής μοντελοποίησης και οι αποτελεσματικοί αλγόριθμοι βοηθούν τον υπολογιστή να αντιμετωπίσει το πρόβλημα της αποκρυπτογράφησης (ανίχνευση των αντιστοιχιών μεταξύ γλώσσας προέλευσης και στόχου στα δεδομένα κατάρτισης) και αποκωδικοποίησης (βρίσκοντας την καλύτερη μετάφραση μιας νέας πρότασης εισόδου). Ο μεταφραστής ενώνει τη δύναμη των στατιστικών μεθόδων με γλωσσικές πληροφορίες για την παραγωγή μοντέλων που γενικεύουν καλύτερα και οδηγούν σε πιο κατανοητές μεταφράσεις.

Εξαιτίας αυτής της προσέγγισης, η οποία δεν βασίζεται σε λεξικά ή γραμτικούς κανόνες, παρέχει τις καλύτερες μεταφράσεις φράσεων όπου μπορεί να χρησιμοποιήσει το περιβάλλον γύρω από μια δεδομένη λέξη, αντί να προσπαθεί να εκτελέσει μόνο μεταφράσεις λέξεων. Για τις μονολεξικών μεταφράσεων, το δίγλωσσο λεξικό αναπτύχθηκε και είναι προσβάσιμο μέσω www.Bing.com/Translator.

Νευρομηχανική μετάφραση

Οι συνεχείς βελτιώσεις στη μετάφραση είναι σημαντικές. Ωστόσο, οι βελτιώσεις των επιδόσεων έχουν σταθεροποιηθεί με την τεχνολογία SMT από τα μέσα της δεκαετίας του 2010. Αξιοποιώντας την κλίμακα και τη δύναμη του υπερυπολογιστή AI της Microsoft, ειδικά η Γνωστική Εργαλειοθήκη της Microsoft, ο Μεταφραστής προσφέρει τώρα νευρωνικό δίκτυο (LSTM) με βάση τη μετάφραση που επιτρέπει μια νέα δεκαετία μεταφραστικής βελτίωσης της ποιότητας.

Αυτά τα μοντέλα νευρωνικών δικτύων είναι διαθέσιμα για όλες τις γλώσσες ομιλίας μέσω της υπηρεσίας ομιλίας στο Azure και μέσω του API κειμένου χρησιμοποιώντας το αναγνωριστικό κατηγορίας 'generalnn'.

Τα νευρικά δίκτυα μεταφράσεις διαφέρουν ριζικά στον τρόπο με τον οποίο εκτελούνται σε σύγκριση με τις παραδοσιακές SMT αυτές.

Το παρακάτω κινούμενο σχέδιο απεικονίζει τα διάφορα βήματα νευρωνικών δικτύων μεταφράσεις περνούν για να μεταφράσει μια πρόταση. Εξαιτίας αυτής της προσέγγισης, η μετάφραση θα λάβει υπόψη την πλήρη πρόταση, έναντι λίγων μόνο λέξεων που συρίνει το παράθυρο που χρησιμοποιεί η τεχνολογία SMT και θα παράγει περισσότερο ρευστό και μεταφρασμένο από τον άνθρωπο μεταφράσεις.

Με βάση τη νευρωνική εκπαίδευση, κάθε λέξη είναι κωδικοποιημένη κατά μήκος ενός φορέα 500 διαστάσεων (α) που αντιπροσωπεύει τα μοναδικά χαρακτηριστικά του μέσα σε ένα συγκεκριμένο ζεύγος γλωσσών (π.χ. Αγγλικά και κινέζικα). Με βάση τα ζεύγη γλωσσών που χρησιμοποιούνται για την εκπαίδευση, το νευρικό δίκτυο θα αυτοπροσδιορίσει ποιες θα πρέπει να είναι αυτές οι διαστάσεις. Θα μπορούσαν να κωδικοποιήσουν απλές έννοιες όπως το φύλο (θηλυκό, αρσενικό, ουδέτερο), το επίπεδο ευγένειας (διάλεκτος, περιστασιακή, γραπτή, επίσημη, κλπ.), το είδος της λέξης (ρήμα, ουσιαστικό, κ. λπ.), αλλά και οποιαδήποτε άλλα μη προφανή χαρακτηριστικά που προέρχονται από τα δεδομένα εκπαίδευσης.

Τα βήματα των νευρικών μεταφράσεων του δικτύου είναι τα εξής:

  1. Κάθε λέξη, ή πιο συγκεκριμένα, ο φορέας 500 διαστάσεων που την αναπαριστά, περνά μέσα από ένα πρώτο στρώμα "νευρώνων" που θα το κωδικοποιήσει σε μια 1000-διάσταση φορέα (β) που αναπαριστά τη λέξη στο πλαίσιο των άλλων λέξεων στην πρόταση.
  2. Μόλις όλες οι λέξεις έχουν κωδικοποιηθεί μία φορά σε αυτά τα διανύσματα 1000-διαστάσεων, η διαδικασία επαναλαμβάνεται αρκετές φορές, κάθε στρώση επιτρέποντας καλύτερη προσαρμογή αυτής της απεικόνισης 1000-διαστάσεων της λέξης στο πλαίσιο της πλήρους πρότασης (σε αντίθεση με το SMT τεχνολογία που μπορεί να λάβει μόνο υπόψη ένα παράθυρο 3 έως 5 λέξεων)
  3. Η τελική μήτρα εξόδου χρησιμοποιείται στη συνέχεια από το επίπεδο προσοχής (δηλ. έναν αλγόριθμο λογισμικού) που θα χρησιμοποιήσει τόσο αυτή την τελική μήτρα εξόδου και το αποτέλεσμα των προηγουμένως μεταφραστεί λέξεων για να καθορίσει ποια λέξη, από την πρόταση πηγής, θα πρέπει να μεταφραστεί μετά. Επίσης, θα χρησιμοποιήσει αυτούς τους υπολογισμούς για να ρίξει δυνητικά περιττές λέξεις στη γλώσσα προορισμού.
  4. Το επίπεδο αποκωδικοποιητή (μετάφραση) μεταφράζει την επιλεγμένη λέξη (ή πιο συγκεκριμένα το διάνυσμα διαστάσεων 1000 που αναπαριστά αυτή τη λέξη στο πλαίσιο της πλήρους πρότασης) στην καταλληλότερη αντίστοιχη γλώσσα προορισμού. Το αποτέλεσμα αυτής της τελευταίας στρώσης (c) στη συνέχεια τροφοδοτείται πίσω στο επίπεδο προσοχής για να υπολογίσει ποια επόμενη λέξη από την πρόταση προέλευσης θα πρέπει να μεταφραστεί.

Στο παράδειγμα που απεικονίζεται στην κινούμενη εικόνα, το περιεχόμενο που γνωρίζει το περιβάλλον 1000-διάσταση του "Teh"θα κωδικοποιήσει ότι το ουσιαστικό (Σπίτι) είναι μια θηλυκή λέξη στα Γαλλικά (La Maison). Αυτό θα επιτρέψει την κατάλληλη μετάφραση για "Teh"να είσαι"La"και όχι"Le"(ενικός, αρσενικός) ή"Les"(πληθυντικός) μόλις φτάσει στο επίπεδο αποκωδικοποιητή (μετάφραση).

Ο αλγόριθμος προσοχής θα υπολογίσει επίσης, με βάση τη λέξη (-ες) που είχε μεταφραστεί προηγουμένως (σε αυτή την περίπτωση "Teh"), ότι η επόμενη λέξη που θα μεταφραστεί πρέπει να είναι το θέμα ("Σπίτι") και όχι ένα επίθετο ("Μπλε"). Αυτό μπορεί να επιτευχθεί επειδή το σύστημα έμαθε ότι τα αγγλικά και τα γαλλικά αντιστρέψαν τη σειρά αυτών των λέξεων σε προτάσεις. Θα είχε επίσης υπολογίσει ότι αν το επίθετο θα ήταν "Μεγάλο"αντί για ένα χρώμα, ότι δεν πρέπει να τα αναστρέψετε ("το μεγάλο σπίτι"το"La Grande Maison").

Χάρη σε αυτή την προσέγγιση, το τελικό αποτέλεσμα είναι, στις περισσότερες περιπτώσεις, πιο άπταιστα και πιο κοντά σε μια ανθρώπινη μετάφραση από ό,τι θα μπορούσε να έχει γίνει ποτέ μια μετάφραση με βάση το SMT.

Πώς λειτουργεί η μετάφραση ομιλίας;

Ο μεταφραστής είναι επίσης σε θέση να μεταφράζει την ομιλία. Αυτή η τεχνολογία εκτίθεται στη ζωντανή λειτουργία Μεταφραστής (http://translate.it), οι εφαρμογές μεταφράστρια, Skype Μεταφραστής και είναι επίσης αρχικά διαθέσιμο μόνο μέσω της δυνατότητας Μεταφραστής Skype και στις εφαρμογές μετάφρασης της Microsoft σε iOS και Android, αυτή η λειτουργικότητα είναι τώρα διαθέσιμη για τους προγραμματιστές με την τελευταία έκδοση του ανοικτού API που βασίζεται σε υπόλοιπο διαθέσιμο στην πύλη Azure.

Αν και μπορεί να φαίνεται σαν μια ευθεία μπροστά διαδικασία με μια πρώτη ματιά για να οικοδομήσουμε μια τεχνολογία μετάφρασης ομιλίας από τα υπάρχοντα τούβλα τεχνολογίας, απαιτούσε πολύ περισσότερη εργασία από το να συνδέετε απλά μια υπάρχουσα "παραδοσιακή" αναγνώριση ομιλίας από άνθρωπο σε μηχανή κινητήρα στην υπάρχουσα μετάφραση κειμένου ένα.

Για να μεταφράσει σωστά την ομιλία "Source" από μια γλώσσα σε μια διαφορετική γλώσσα "Target", το σύστημα περνά από μια διαδικασία τεσσάρων βημάτων.

  1. Αναγνώριση ομιλίας, για να μετατρέψετε τον ήχο σε κείμενο
  2. ΑληθέςΚείμενο: μια τεχνολογία της Microsoft που ομαλοποιεί το κείμενο για να το καταστήσει καταλληλότερο για μετάφραση
  3. Μετάφραση μέσω της μηχανής μεταφράσεως κειμένου που περιγράφεται παραπάνω, αλλά σε μεταφραστικά μοντέλα ειδικά σχεδιασμένα για πραγματική ζωή ομιλούμενες συνομιλίες
  4. Κείμενο σε ομιλία, όταν είναι απαραίτητο, για την παραγωγή του μεταφρασμένου ήχου.

Αυτόματη αναγνώριση ομιλίας (ASR)
Η αυτόματη αναγνώριση ομιλίας (ASR) εκτελείται χρησιμοποιώντας ένα σύστημα νευρικού δικτύου (NN) εκπαιδευμένο στην ανάλυση χιλιάδων ωρών εισερχόμενης ηχητικής ομιλίας. Αυτό το μοντέλο έχει εκπαιδευτεί σε αλληλεπίδραση από άνθρωπο σε άνθρωπο και όχι με εντολές από άνθρωπο σε μηχάνημα, δημιουργώντας αναγνώριση ομιλίας που έχει βελτιστοποιηθεί για κανονικές συζητήσεις. Για να επιτευχθεί αυτό, χρειάζονται πολύ περισσότερα δεδομένα, καθώς και μια μεγαλύτερη DNN από την παραδοσιακή ανθρώπινη προς την μηχανή ASRs.

Μάθετε περισσότερα για Ομιλία της Microsoft σε υπηρεσίες κειμένου.

ΑληθέςΚείμενο
Καθώς οι άνθρωποι συνομιλεί με άλλους ανθρώπους, δεν μιλάμε τόσο τέλεια, καθαρά ή τακτοποιημένα όπως συχνά νομίζουμε ότι κάνουμε. Με την τεχνολογία ΑληθέςΚείμενο, το κυριολεκτικό κείμενο μετατρέπεται για να αντανακλά πιο προσεκτικά την πρόθεση του χρήστη αφαιρώντας τις παραμορφώσεις ομιλίας (λέξεις πλήρωσης), όπως "um", "Ah", "και" s "," όπως ", τραυλίζει και επαναλήψεις. Το κείμενο γίνεται επίσης πιο ευανάγνωστο και μεταφράσιμο προσθέτοντας διαλείμματα πρότασης, σωστή στίξη και κεφαλαιοποίηση. Για να επιτευχθούν αυτά τα αποτελέσματα, χρησιμοποιήσαμε τις δεκαετίες εργασίας για τις γλωσσικές τεχνολογίες, αναπτύξαμε από τον μεταφραστή για να δημιουργήσουμε ΑληθέςΚείμενο. Το παρακάτω διάγραμμα απεικονίζει, μέσα από ένα πραγματικό παράδειγμα, ότι οι διάφοροι μετασχηματισμών ΑληθέςΚείμενο λειτουργούν για να εξομαλύνουν αυτό το κυριολεκτικό κείμενο.

 

Μεταφράση
Στη συνέχεια, το κείμενο μεταφράζεται σε γλώσσες και διαλέκτους υποστηρίζεται από μεταφραστή.

Οι μεταφράσεις που χρησιμοποιούν το API μετάφρασης ομιλίας (ως προγραμματιστής) ή σε μια εφαρμογή ή υπηρεσία μετάφρασης ομιλίας, τροφοδοτούνται με τις νεότερες μεταφράσεις με βάση το νευρικό δίκτυο για όλες τις γλώσσες που υποστηρίζονται από την είσοδο ομιλίας (βλ. Εδώ για τον πλήρη κατάλογο). Αυτά τα μοντέλα χτίστηκαν επίσης με την επέκταση των σημερινών, κυρίως γραπτού κειμένου καταρτισμένων μοντέλων μετάφρασης, με πιο ομιλούμενες εταιρείες για να οικοδομήσουν ένα καλύτερο μοντέλο για ομιλούμενες μεταφραστικές συζητήσεις. Αυτά τα μοντέλα είναι επίσης διαθέσιμα μέσω της τυπική κατηγορία "ομιλίας" του παραδοσιακού API μετάφρασης κειμένου.

Για κάθε γλώσσα που δεν υποστηρίζεται από την νευρική μετάφραση, πραγματοποιείται παραδοσιακή μετάφραση SMT.

Κείμενο σε ομιλία
Εάν η γλώσσα-στόχος είναι μία από τις 18 υποστηριζόμενες κείμενο σε ομιλία Γλώσσες, και η θήκη χρήσης απαιτεί μια έξοδο ήχου, το κείμενο μετατρέπεται στη συνέχεια σε έξοδο ομιλίας χρησιμοποιώντας σύνθεση ομιλίας. Αυτό το στάδιο παραλείπεται σε σενάρια μετάφρασης ομιλίας προς κείμενο.

Μάθετε περισσότερα για Το κείμενο της Microsoft σε υπηρεσίες ομιλίας.

Έρευνα


Αυτή η υπηρεσία είναι μέρος της Υπηρεσίες AI Azure