Mesin penerjemahan kelompok di Microsoft Research
Microsoft Research mesin terjemahan (MSR-MT) kelompok telah menjadi salah satu organisasi penelitian terkemuka di mesin terjemahan ruang selama lebih dari 8 tahun, dan beberapa karya dasar dalam pengolahan bahasa alami di MSR dimulai lebih dari 16 tahun yang lalu. Pendekatan tim terjemahan mesin mengintegrasikan fitur linguistik dengan negara-of-The-Art algoritma penerjemahan mesin statistik. Fokus tim selalu secara otomatis memperoleh pengetahuan penerjemahan dari dwibahasa corpora, yaitu, data paralel yang terdiri dari kalimat bahasa sumber asli dan terjemahan yang sesuai oleh penerjemah manusia. Sekitar 3 tahun yang lalu, fokus tim bergeser dari pendekatan berbasis aturan murni untuk tugas ini menuju pendekatan hibrida yang mencakup pemrosesan statistik yang ekstensif, memungkinkan skalabilitas yang lebih besar di seluruh domain dan ke dalam bahasa baru.
Teknologi terjemahan mesin Microsoft pertama kali dikembangkan untuk tujuan lokalisasi in-House, untuk Memungkinkan organisasi dukungan pelanggan kami untuk mempublikasikan dokumen dukungan teknis dengan frekuensi dan luasnya bahasa yang akan sangat mahal dengan menggunakan penerjemah manusia. Dengan semua dokumen Microsoft sebelumnya diterjemahkan manusia dan perangkat lunak lokal yang pembuangan, tim MT dapat secara otomatis melatih mesin MT statistik untuk mencapai kualitas yang cukup baik di domain teknis. Teknologi ini diperpanjang untuk mendukung tim lokalisasi Windows, Divisi pengembang, MSDN, dan beberapa kelompok lain dalam Microsoft. Hal ini juga memungkinkan Microsoft untuk menjangkau lebih banyak pelanggan daripada yang akan pernah mungkin menggunakan terjemahan manusia sendirian.
Setelah berfokus pada kebutuhan terjemahan Microsoft sendiri, tim mulai membangun layanan web scalable yang akan memungkinkan untuk menyediakan layanan terjemahan kepada masyarakat umum, sebagai Alat mandiri di web, dan sebagai fitur dalam produk lainnya. Mengingat bahwa mesin Microsoft MT telah dilatih paling banyak pada data teknis, belum disetel untuk menerjemahkan teks dalam domain subjek lainnya. Namun, kami berharap untuk terus meningkatkan kualitas dan luasnya mesin. Kami berharap dapat berbagi perkembangan kami dengan Anda selama beberapa bulan mendatang di blog ini.
– Heather