Microsoft Translator Rilis Terjemahan Sastra Cina
Saat membaca kuno Cina Puisi, kita sering mengagumi kata-kata yang sangat indah yang bisa digunakan penulis kuno untuk menggambarkan orang, peristiwa, benda, dan adegan. Ini adalah harta budaya yang indah yang telah ditinggalkan bagi kita. Namun, mirip dengan Shakespeare'Ayat-ayat dalam bahasa Inggris, sastra Cina yang digunakan oleh penyair ini sering sulit bagi orang modern untuk memahami, dan makna dan seluk-beluk tertanam di dalamnya sering hilang.
Untuk mengatasi masalah ini, para peneliti di Microsoft Research Asia mengadopsi teknik terjemahan mesin saraf terbaru untuk melatih model terjemahan langsung antara sastra Cina dan Cina modern, yang juga menghasilkan menciptakan kemampuan terjemahan antara sastra Cina dan Cina. Lebih dari 90 bahasa lainnya dan dialek dalam Penerjemah Microsoft. Saat ini, terjemahan sastra Cina telah diintegrasikan ke dalam Microsoft Translator app, Penerjemah Layanan Kognitif Azure, dan sejumlah produk Microsoft yang didukung oleh layanan Microsoft Translator.
Lukisan dari "West Mountain in Misty Rain" oleh Shen Zhou, Dinasti Ming. Puisi Cina kuno pada lukisan itu berasal dari Yong Liu, Dinasti Song Utara. Puisi itu menggambarkan pemandangan musim semi di Cina selatan selama Festival Qingming dan kemakmuran kehidupan sosial.
Memungkinkan lebih banyak orang untuk menghargai pesona budaya tradisional Cina
Sastra Cina adalah pembawa penting dari budaya tradisional Cina. Buku-buku dan teks-teks tebal dari zaman kuno telah mencatat Cina.'Budaya yang kaya dan mendalam selama lima ribu tahun terakhir. Pikiran dan kebijaksanaan yang terakumulasi dan terkandung di dalamnya layak untuk eksplorasi dan pemikiran yang berkelanjutan.
Dengan bantuan terjemahan mesin, wisatawan sekarang dapat memahami teks dan puisi Cina kuno yang ditulis di bangunan dan monumen bersejarah, siswa sekarang memiliki alat tambahan untuk membantu mereka belajar bahasa Cina, dan peneliti yang terlibat dalam menyusun dan menerjemahkan teks-teks kuno bisa lebih produktif.
Dongdong Zhang, seorang peneliti utama di Microsoft Research Asia, mengatakan, "Dari perspektif teknis, sastra Cina dapat dianggap sebagai bahasa yang terpisah. Setelah terjemahan antara sastra Cina dan Cina modern direalisasikan, terjemahan antara sastra Cina dan bahasa lain seperti Inggris, Perancis, dan Jerman menjadi masalah tentu saja.
Kesulitan terbesar model AI terjemahan sastra Cina: Sedikit data pelatihan
Elemen yang paling penting dari pelatihan model AI adalah data. Hanya ketika volume data cukup besar dan kualitasnya cukup tinggi Dapat Anda Melatih model yang lebih akurat. Dalam terjemahan mesin, pelatihan model membutuhkan data bilingual: data teks asli dan data bahasa target. Terjemahan sastra Cina sangat istimewa, seperti itu'Ini bukan bahasa yang digunakan dalam kehidupan sehari-hari. Oleh karena itu, dibandingkan dengan terjemahan bahasa lain, data pelatihan terjemahan sastra Cina sangat kecil, yang tidak kondusif untuk pelatihan model terjemahan mesin.
Meskipun peneliti Microsoft Research Asia mengumpulkan banyak data sastra dan cina modern yang tersedia untuk umum pada tahap awal, data asli tidak dapat langsung digunakan. Pembersihan data perlu dilakukan untuk menormalkan data dari berbagai sumber, berbagai format, serta lebar penuh.Tanda baca setengah lebar, sebagai sarana untuk meminimalkan gangguan data yang tidak valid pada pelatihan model. Dengan cara ini, data berkualitas tinggi yang sebenarnya tersedia semakin berkurang.
Menurut Shuming Ma, seorang peneliti di Microsoft Research Asia, untuk mengurangi masalah jarang data, para peneliti telah melakukan sejumlah besar sintesis data dan pekerjaan augmentasi, termasuk:
Pertama, karakter umum– penyelarasan dan ekspansi berbasis untuk meningkatkan ukuran data pelatihan. Berbeda dari Terjemahan antara bahasa Cina dan bahasa lain seperti Bahasa Inggris, Prancis, Rusia, dll., Sastra Cina dan Cina modern menggunakan set karakter yang sama. Mengambil keuntungan dari fitur ini, para peneliti di Microsoft Research Asia telah menggunakan algoritma inovatif untuk memungkinkan terjemahan mesin untuk mengingat karakter umum, melakukan keselarasan alami, dan kemudian memperluas lebih lanjut ke kata-kata, frasa, dan kalimat pendek, sehingga mensintesis sejumlah besar data yang dapat digunakan.
Kedua, deformasi struktur kalimat untuk meningkatkan ketahanan terjemahan mesin. Mengenai Dalam teks dan puisi, para peneliti telah menambahkan sejumlah varian untuk membuat mesin lebih komprehensif dalam mempelajari puisi kuno. Bagi orang-orang, bahkan ketika mereka melihat kalimat yang terstruktur secara tidak normal, seperti puisi yang tersegmentasi menjadi garis berdasarkan ritme daripada kalimat penuh, mereka masih dapat menyatukan bagian-bagian itu dan memahaminya. Tetapi untuk model terjemahan yang belum pernah melihat segmentasi seperti itu sebelumnya, kemungkinan akan bingung. Oleh karena itu, transformasi format data tidak hanya dapat memperluas jumlah data pelatihan, tetapi juga meningkatkan ketahanan pelatihan model terjemahan.
Ketiga, melakukan pelatihan penerjemahan karakter tradisional dan sederhana untuk meningkatkan kemampuan beradaptasi model. Dalam bahasa Cina, karakter tradisional ada dalam bahasa Cina sastra dan modern. Ketika para peneliti melatih model, untuk meningkatkan kemampuan beradaptasi model, mereka tidak hanya memanfaatkan data dalam bahasa Cina yang disederhanakan, tetapi juga menambahkan data dalam bahasa Cina tradisional, serta data yang dicampur dengan karakter tradisional dan disederhanakan. Dengan demikian, model dapat memahami konten tradisional dan disederhanakan, yang mengarah ke hasil terjemahan yang lebih akurat.
Keempat, meningkatkan pelatihan kata-kata berbahasa asing untuk meningkatkan akurasi terjemahan. Ketika menerjemahkan cina modern ke dalam sastra Cina, sering ada kata-kata modern yang berasal dari kata-kata berbahasa asing dan kata-kata baru yang tidak pernah muncul dalam bahasa Cina kuno, seperti "Microsoft", "komputer", "kereta api berkecepatan tinggi", dan banyak lainnya seperti itu. Untuk mengatasi masalah ini, para peneliti melatih model kecil untuk mengenali entitas. Model pertama menerjemahkan arti kata di luar entitas, kemudian mengisi entitas kembali untuk memastikan keakuratan mesin.'pengolahan kata-kata asing.
Gambar: THge Sastra Cina proses penerjemahan
Selain itu, untuk gaya penulisan informal seperti blog, forum, Weibo, dan sebagainya, model terjemahan mesin telah dilatih khusus untuk lebih meningkatkan ketahanan terjemahan antara cina modern dan sastra.
Dongdong Zhang menyatakan, "Berdasarkan sistem terjemahan saat ini, kami akan terus memperkaya kumpulan data dan meningkatkan metode pelatihan model untuk membuatnya lebih kuat dan serbaguna. Di masa depan, metode ini tidak hanya dapat digunakan untuk terjemahan sastra Cina, tetapi juga dapat diperluas ke skenario aplikasi lainnya.