Dịch thuật máy thần kinh cho phép các sáng kiến của con người chẵn lẻ trong đám mây
Vào tháng 2018, chúng tôi Công bố (Hassan et al. 2018) một kết quả đột phá, nơi chúng tôi cho thấy lần đầu tiên một hệ thống máy dịch thuật có thể thực hiện cũng như các dịch giả của con người (trong một kịch bản cụ thể-Trung Quốc-tiếng Anh bản tin). Đây là một bước đột phá thú vị trong nghiên cứu Machine Translation, nhưng hệ thống chúng tôi xây dựng cho dự án này là một hệ thống nghiên cứu nặng, kết hợp nhiều kỹ thuật cắt-cạnh. Trong khi chúng tôi phát hành đầu ra của hệ thống này trên một số bộ thử nghiệm, Hệ thống chính nó đã không phù hợp để triển khai trong một thời gian thực máy dịch đám mây API.
Hôm nay chúng tôi rất vui mừng thông báo sự sẵn có trong sản xuất của thế hệ mới nhất của chúng tôi của mô hình dịch máy thần kinh. Những mô hình này kết hợp hầu hết các tốt đẹp của hệ thống nghiên cứu của chúng tôi và bây giờ đã có theo mặc định khi bạn sử dụng Microsoft Translator API. Những mô hình mới có sẵn ngày hôm nay tại Trung Quốc, Đức, Pháp, Hindi, ý, Tây Ban Nha, Nhật bản, Hàn Quốc, và Nga, từ và sang tiếng Anh. Nhiều ngôn ngữ đang đến sớm.
Bắt từ giấy nghiên cứu để Cloud API
Trong năm qua, chúng tôi đã tìm cách để mang lại nhiều chất lượng của hệ thống con người-chẵn lẻ của chúng tôi vào Microsoft Translator API, trong khi tiếp tục cung cấp bản dịch thời gian thực chi phí thấp. Dưới đây là một số bước trên hành trình đó.
Đào tạo giáo viên-sinh viên
Bước đầu tiên của chúng tôi là chuyển sang một khuôn khổ "giáo viên-sinh viên", nơi chúng tôi đào tạo một học sinh thời gian thực nhẹ nhàng để bắt chước một mạng lưới giáo viên nặng (Ba và Caruana 2014). Điều này được thực hiện bằng cách đào tạo học sinh không phải trên các dữ liệu Parallel mà hệ thống MT thường được đào tạo, nhưng trên bản dịch được sản xuất bởi các giáo viên (Kim và Rush 2016). Đây là một nhiệm vụ đơn giản hơn so với học tập từ dữ liệu thô, và cho phép sinh viên đơn giản, nông hơn rất chặt chẽ theo các giáo viên phức tạp. Như người ta có thể mong đợi, nỗ lực ban đầu của chúng tôi vẫn còn bị giảm chất lượng từ giáo viên cho sinh viên (không có bữa ăn trưa miễn phí!), nhưng chúng tôi vẫn đã diễn ra đầu tiên trong WNMT 2018 chia sẻ nhiệm vụ về hiệu quả giải mã (Junczys-Dowmunt et al. 2018a). Một số kết quả đặc biệt thú vị từ nỗ lực này là biến áp (Vaswani et al. 2017) mô hình và sửa đổi của họ chơi tốt với đào tạo giáo viên-sinh viên và có hiệu quả đáng kinh ngạc trong quá trình suy luận về CPU.
Học hỏi từ những kết quả ban đầu và sau khi nhiều lặp chúng tôi phát hiện ra một công thức cho phép học sinh đơn giản của chúng tôi có gần như cùng chất lượng như các giáo viên phức tạp (đôi khi có một bữa ăn trưa miễn phí sau khi tất cả?). Bây giờ chúng ta được tự do xây dựng các mô hình giáo viên lớn, phức tạp để tối đa hóa chất lượng, mà không phải lo lắng về những hạn chế thời gian thực (quá nhiều).
Dịch thuật thời gian thực
Quyết định của chúng tôi để chuyển sang một khuôn khổ giáo viên-sinh viên được thúc đẩy bởi những công việc tuyệt vời Kim và Rush (2016) cho các mô hình dựa trên RNN đơn giản. Tại điểm đó nó đã không rõ ràng nếu các lợi ích báo cáo sẽ biểu hiện cho các mô hình biến áp là tốt (xem Vaswani et al. 2017 để biết chi tiết về mô hình này). Tuy nhiên, chúng tôi nhanh chóng phát hiện ra rằng điều này thực sự là trường hợp.
Các sinh viên biến áp có thể sử dụng một thuật toán rất đơn giản giải mã (tham lam tìm kiếm), nơi chúng tôi chỉ chọn từ tốt nhất dịch từ mỗi bước, chứ không phải là phương pháp thông thường (chùm-tìm kiếm) mà liên quan đến việc tìm kiếm thông qua các không gian lớn có thể bản dịch. Sự thay đổi này có tác động chất lượng tối thiểu nhưng đã dẫn đến những cải tiến lớn về tốc độ dịch thuật. Ngược lại, một mô hình giáo viên có bị giảm đáng kể về chất lượng khi chuyển đổi từ Beam-tìm kiếm để tham lam-tìm kiếm.
Đồng thời, chúng tôi nhận ra rằng thay vì sử dụng kiến trúc thần kinh mới nhất (biến áp với sự chú ý tự) trong bộ giải mã, học sinh có thể được sửa đổi để sử dụng một kiến trúc đơn giản và nhanh hơn tái phát (RNN) mạnh mẽ. Điều này quan trọng bởi vì trong khi các bộ mã hóa biến áp có thể được tính toán trên toàn bộ các câu mã nguồn song song, các câu mục tiêu được tạo ra một từ duy nhất tại một thời gian, do đó, tốc độ của các bộ giải mã có tác động lớn đến tốc độ tổng thể của bản dịch. So với sự chú ý tự, các bộ giải mã tái phát giảm sự phức tạp của thuật toán từ bậc hai đến tuyến tính trong chiều dài câu mục tiêu. Đặc biệt là trong bối cảnh giáo viên-học sinh, chúng tôi thấy không có tổn thất về chất lượng do những sửa đổi này, không cho tự động cũng không cho kết quả đánh giá của con người. Một số cải tiến bổ sung như chia sẻ tham số dẫn đến giảm hơn nữa trong phức tạp và tăng tốc độ.
Một ưu điểm khác của khuôn khổ giáo viên-sinh viên chúng tôi rất vui mừng khi thấy rằng chất lượng cải tiến theo thời gian của các giáo viên ngày càng phát triển và thay đổi được dễ dàng mang sang một kiến trúc sinh viên không thay đổi. Trong trường hợp chúng tôi thấy vấn đề trong lĩnh vực này, tăng nhẹ trong năng lực mô hình sinh viên đã đóng lại khoảng cách.
Học tập kép
Những hiểu biết quan trọng đằng sau Dual Learning (Ông et al. 2016) là "chuyến đi vòng dịch" kiểm tra rằng người dân đôi khi sử dụng để kiểm tra chất lượng dịch thuật. Cho rằng chúng tôi đang sử dụng một dịch giả trực tuyến để đi từ tiếng Anh sang tiếng ý. Nếu chúng ta không đọc tiếng ý, làm thế nào để chúng ta biết nếu nó được thực hiện một công việc tốt? Trước khi nhấp vào Gửi trên một email, chúng tôi có thể chọn để kiểm tra chất lượng bằng cách dịch tiếng ý trở lại tiếng Anh (có thể trên một trang web khác nhau). Nếu tiếng Anh, chúng tôi lấy lại đã đi lạc quá xa so với bản gốc, rất có thể là một trong những bản dịch đã ra khỏi đường ray.
Học tập kép sử dụng cách tiếp cận tương tự để đào tạo hai hệ thống (ví dụ như tiếng Anh-> ý và tiếng ý-> tiếng Anh) song hành, sử dụng bản dịch khứ hồi từ một hệ thống để ghi điểm, xác nhận và đào tạo các hệ thống khác.
Học tập kép là một đóng góp lớn cho kết quả nghiên cứu con người chẵn lẻ của chúng tôi. Trong đi từ hệ thống nghiên cứu công thức sản xuất của chúng tôi, chúng tôi tổng quát cách tiếp cận này rộng rãi. Chúng tôi không chỉ cùng đào tạo cặp hệ thống trên đầu ra của nhau, chúng tôi cũng đã sử dụng cùng một tiêu chí để lọc dữ liệu Parallel của chúng tôi.
Dọn dẹp dữ liệu không chính xác
Hệ thống dịch máy được đào tạo về "dữ liệu Parallel", tức là cặp tài liệu được bản dịch của nhau, lý tưởng tạo ra bởi một dịch giả của con người. Vì nó biến ra, dữ liệu song song này thường là đầy đủ các bản dịch không chính xác. Đôi khi các tài liệu không thực sự song hành nhưng chỉ lỏng lẻo paraphrases của nhau. Dịch người dịch có thể chọn để lại một số nguồn tài liệu hoặc chèn thêm thông tin. Các dữ liệu có thể chứa lỗi chính tả, sai sót, ngữ Pháp. Đôi khi các thuật toán khai thác dữ liệu của chúng tôi bị lừa bởi các dữ liệu tương tự nhưng không song song, hoặc thậm chí theo các câu trong ngôn ngữ không đúng. Tồi tệ nhất của tất cả, rất nhiều các trang web chúng ta thấy là thư rác, hoặc có thể trong thực tế là bản dịch máy chứ không phải là bản dịch của con người. Hệ thống thần kinh rất nhạy cảm với loại thiếu chính xác trong dữ liệu. Chúng tôi thấy rằng xây dựng các mô hình thần kinh để tự động xác định và thoát khỏi những không chính xác đã cải thiện mạnh mẽ về chất lượng của hệ thống của chúng tôi. Cách tiếp cận của chúng tôi để lọc dữ liệu dẫn đến nơi đầu tiên trong WMT18 Parallel Corpus lọc Benchmark (Junczys-Dowmunt 2018a) và giúp xây dựng một trong những hệ thống dịch tiếng Anh-Đức mạnh nhất trong WMT18 tin tức công việc dịch thuật (Junczys-Dowmunt 2018b). Chúng tôi sử dụng phiên bản cải tiến của phương pháp này trong các hệ thống sản xuất chúng tôi phát hành ngày hôm nay.
Cơ quan đại diện từ
Khi di chuyển một công nghệ nghiên cứu để sản xuất, một số thách thức thực thế giới phát sinh. Nhận được số, ngày tháng, thời gian, viết hoa, khoảng cách, vv phải vấn đề nhiều hơn trong sản xuất hơn trong một hệ thống nghiên cứu.
Hãy cân nhắc thách thức viết hoa. Nếu chúng tôi đang dịch câu "xem CAT VIDEOS đây". Chúng tôi biết làm thế nào để dịch "mèo". Chúng tôi muốn dịch "CAT" theo cùng một cách. Nhưng bây giờ xem xét "Watch US Soccer HERE". Chúng tôi không muốn nhầm lẫn từ "chúng tôi" và từ viết tắt "US" trong bối cảnh này.
Để xử lý điều này, chúng tôi sử dụng một cách tiếp cận được gọi là tính toán máy dịch (Koehn và hoàng 2007, Sennrich và Haddow 2016) hoạt động như sau. Thay vì một đại diện số duy nhất ("nhúng") cho "Cat" hoặc "CAT", chúng tôi sử dụng nhiều embộ, được gọi là "yếu tố". Trong trường hợp này, việc nhúng chính sẽ giống nhau cho "CAT" và "Cat" nhưng một yếu tố riêng biệt đại diện cho việc viết hoa, cho thấy rằng nó đã được tất cả các mũ trong một phiên bản nhưng chữ thường trong khác. Các yếu tố tương tự được sử dụng trên nguồn và phía mục tiêu.
Chúng tôi sử dụng các yếu tố tương tự để xử lý các đoạn từ và khoảng cách giữa các từ (một vấn đề phức tạp trong các ngôn ngữ không khoảng cách hoặc bán khoảng cách như Trung Quốc, Hàn Quốc, Nhật bản hoặc Thái Lan).
Các yếu tố cũng cải thiện đáng kể dịch số, đó là rất quan trọng trong nhiều kịch bản. Số dịch là chủ yếu là một chuyển đổi thuật toán. Ví dụ, 1.234.000 có thể được viết là 12, 34000 trong tiếng Hindi, 1.234.000 bằng tiếng Đức, và 123,4 万 bằng tiếng Trung. Theo truyền thống, các số được thể hiện như các từ, như các nhóm ký tự có chiều dài khác nhau. Điều này làm cho nó khó khăn cho Machine Learning để khám phá các thuật toán. Thay vào đó, chúng tôi ăn tất cả các số duy nhất của một số riêng biệt, với các yếu tố đánh dấu bắt đầu và kết thúc. Mẹo đơn giản này mạnh mẽ và đáng tin cậy loại bỏ gần như tất cả các lỗi dịch thuật số.
Đào tạo mô hình nhanh hơn
Khi chúng tôi đang đào tạo một hệ thống duy nhất hướng tới một mục tiêu duy nhất, như chúng tôi đã làm cho các dự án nghiên cứu con người-chẵn lẻ, chúng tôi hy vọng sẽ ném số lượng lớn các phần cứng tại các mô hình mà mất vài tuần để đào tạo. Khi đào tạo mô hình sản xuất cho 20 + cặp ngôn ngữ, cách tiếp cận này trở nên không thể tenable. Chúng tôi không chỉ cần lần lượt xung quanh hợp lý, nhưng chúng tôi cũng cần phải kiểm duyệt nhu cầu phần cứng của chúng tôi. Đối với dự án này, chúng tôi đã thực hiện một số cải tiến hiệu suất để Marian NMT (Junczys-Dowmunt et al. 2018b).
Marian NMT là bộ công cụ MT thần kinh mã nguồn mở mà Microsoft Translator dựa trên. Marian là một bộ công cụ dịch máy thần kinh tinh khiết C++, và, kết quả là, cực kỳ hiệu quả, không đòi hỏi phải có GPU tại thời gian chạy, và rất hiệu quả lúc đào tạo
Do bản chất khép kín của nó, nó là khá dễ dàng để tối ưu hóa Marian cho các nhiệm vụ cụ thể NMT, mà kết quả trong một trong những bộ công cụ NMT hiệu quả nhất có sẵn. Hãy xem điểm chuẩn. Nếu bạn quan tâm đến thần kinh MT nghiên cứu và phát triển, xin vui lòng tham gia và đóng góp vào cộng đồng trên GitHub.
Những cải tiến của chúng tôi về đào tạo và giải mã chính xác, cũng như cho việc đào tạo mô hình lớn sẽ sớm được cung cấp trong kho lưu trữ GitHub công cộng.
Chúng tôi rất vui mừng về tương lai của dịch máy thần kinh. Chúng tôi sẽ tiếp tục triển khai kiến trúc mẫu mới cho các ngôn ngữ còn lại và Tùy chỉnh Translator trong suốt năm nay. Người dùng của chúng tôi sẽ tự động nhận được bản dịch đáng kể chất lượng tốt hơn thông qua Translator API, chúng tôi Ứng dụng Translator, Microsoft Office và trình duyệt Edge. Chúng tôi hy vọng những cải tiến mới giúp cuộc sống cá nhân và nghề nghiệp của bạn và mong muốn phản hồi của bạn.
Tham khảo
- Jimmy ba và Rich Caruana. 2014. lưới sâu thực sự cần phải được sâu? Tiến bộ trong hệ thống xử lý thông tin thần kinh 27. Trang 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
- Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie liu, tie-Yan liu, Renqian Luo, Arul Menezes, tao Qin, Frank Seide, xu tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. đạt được tính chẵn lẻ của con người trên tự động Trung Quốc để bản tin tiếng Anh. http://arxiv.org/abs/1803.05567
- He, di và Xia, Yingce và Qin, tao và Wang, Liwei và Yu, Nenghai và liu, tie-Yan và ma, Wei-Ying. 2016. Dual Learning cho máy dịch thuật. Tiến bộ trong hệ thống xử lý thông tin thần kinh 29. Trang 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
- Marcin Junczys-Dowmunt. 2018a. Dual có điều kiện Cross-entropy lọc của tiếng ồn ngang corpora. Kỷ yếu của hội nghị thứ ba trên máy dịch thuật: chia sẻ nhiệm vụ giấy tờ. Bỉ, trang 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
- Marcin Junczys-Dowmunt. 2018b. Microsoft gửi đến WMT2018 tin tức công việc dịch thuật: làm thế nào tôi học được để Stop lo lắng và tình yêu dữ liệu. Kỷ yếu của hội nghị thứ ba trên máy dịch thuật: chia sẻ nhiệm vụ giấy tờ. Bỉ, trang 425-430. https://www.aclweb.org/anthology/W18-6415/
- Marcin Junczys-Dowmunt, Kenneth Heafield, hieu hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: chi phí-hiệu quả cao máy thần kinh chất lượng dịch thuật trong C++. Kỷ yếu của hội thảo 2 về dịch máy thần kinh và thế hệ. Melbourne, Úc, trang 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
- Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, hieu hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri AJI, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: Fast thần kinh máy dịch thuật trong C++. Kỷ yếu của ACL 2018, Hệ thống cuộc biểu tình. Melbourne, Úc, trang 116-121. https://www.aclweb.org/anthology/P18-4020/
- Yoon kim và Alexander M. Rush. 2016. kiến thức chưng cất cấp trình tự. Trong kỷ yếu của hội nghị 2016 về phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên, EMNLP 2016, Austin, Texas, Mỹ, tháng mười một 1-4, 2016, trang 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
- Philipp Koehn, hieu hoang. 2007. mô hình dịch thuật yếu tố. Kỷ yếu của 2007 Hội nghị chung về phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên và tính toán ngôn ngữ tự nhiên học tập (EMNLP-CoNLL). Prague, Cộng hòa Séc, trang 868-876. https://www.aclweb.org/anthology/D07-1091/
- Rico Sennrich, Barry Haddow. 2016. tính năng nhập ngôn ngữ cải thiện dịch máy thần kinh. Kỷ yếu của hội nghị đầu tiên trên máy dịch: Volume 1, nghiên cứu Papers. Berlin, Đức, trang 83-91. https://www.aclweb.org/anthology/W16-2209/
- Vaswani, Ashish và shazeer, Noam và Parmar, Niki và Uszkoreit, Jakob và Jones, Llion và Gomez, Aidan N và Kaiser, Lukasz và Polosukhin, Illia. 2017. chú ý là tất cả những gì bạn cần. Tiến bộ trong hệ thống xử lý thông tin thần kinh 30. Trang 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need