Lompati ke konten utama
Penerjemah
Halaman ini telah diterjemahkan secara otomatis oleh layanan penerjemahan mesin Microsoft Translator. Pelajari lebih lanjut

Microsoft Translator blog

Terjemahan berdasarkan gender Bing mengatasi bias dalam penerjemahan

Penghapusan bias gender
Rendering 3D simbol gender.

Kami dengan senang hati mengumumkan bahwa mulai hari ini, terjemahan alternatif maskulin dan feminin telah tersedia untuk menerjemahkan dari bahasa Inggris ke bahasa Spanyol, Prancis, atau Italia. Anda dapat mencoba fitur baru ini di kedua bahasa tersebut Bing Cari Dan Bing penerjemah vertikal.

Selama beberapa tahun terakhir, bidang Penerjemahan Mesin (MT) telah mengalami revolusi dengan munculnya model transformator, yang mengarah pada peningkatan kualitas yang luar biasa. Namun, model yang dioptimalkan untuk menangkap sifat statistik dari data yang dikumpulkan dari dunia nyata secara tidak sengaja mempelajari atau bahkan memperkuat bias sosial yang ditemukan dalam data tersebut.

Rilis terbaru kami merupakan langkah untuk mengurangi salah satu bias ini, khususnya bias gender yang lazim terjadi pada sistem MT. Penerjemah Bing selalu menghasilkan satu terjemahan untuk kalimat masukan, meskipun terjemahan tersebut bisa saja memiliki variasi gender lain, termasuk varian feminin dan maskulin. Sesuai dengan Prinsip-prinsip AI yang bertanggung jawab dari Microsoftkami ingin memastikan bahwa kami menyediakan terjemahan alternatif yang benar dan lebih inklusif untuk semua gender. Sebagai bagian dari perjalanan ini, langkah pertama kami adalah menyediakan varian terjemahan feminin dan maskulin.

Gender diekspresikan secara berbeda dalam berbagai bahasa. Misalnya, dalam bahasa Inggris, kata pengacara dapat merujuk pada individu pria atau wanita, tetapi dalam bahasa Spanyol, abogada akan merujuk pada pengacara perempuan, sementara abogado akan merujuk pada yang berjenis kelamin laki-laki. Dengan tidak adanya informasi tentang jenis kelamin kata benda seperti 'pengacara' dalam kalimat sumber, model MT dapat memilih jenis kelamin yang sewenang-wenang untuk kata benda tersebut dalam bahasa sasaran. Seringkali, penentuan gender yang sewenang-wenang ini sesuai dengan stereotip, yang melanggengkan bias sosial yang berbahaya (Stanovsky et al., 2019; Ciora et al., 2021) dan menyebabkan terjemahan yang tidak sepenuhnya akurat.

Pada contoh di bawah ini, Anda dapat melihat bahwa ketika menerjemahkan kalimat netral gender dari bahasa Inggris ke bahasa Spanyol, teks yang diterjemahkan mengikuti peran gender stereotip, misalnya, pengacara diterjemahkan sebagai laki-laki.

Penerjemahan dengan bias gender
Tangkapan layar terjemahan teks bahasa Inggris "Let's get our lawyer's opinion on this issue." ke dalam bahasa Spanyol yang memiliki bias gender.

Karena tidak ada konteks dalam kalimat sumber yang menyiratkan jenis kelamin pengacara, maka menghasilkan terjemahan dengan asumsi pengacara pria atau wanita akan valid. Sekarang, Bing Translator menghasilkan terjemahan dengan bentuk feminin dan maskulin.

Terjemahan Teks Bahasa Inggris yang ambigu gender ke dalam Bahasa Spanyol
Tangkapan layar terjemahan teks bahasa Inggris "Let's get our lawyer's opinion on this issue." ke dalam bahasa Spanyol yang memiliki terjemahan khusus gender.

Desain sistem

Kami bertujuan untuk merancang sistem kami untuk memenuhi kriteria utama berikut untuk menyediakan alternatif berdasarkan gender:

  1. Varian feminin dan maskulin harus memiliki perbedaan minimal kecuali yang diperlukan untuk menyampaikan jenis kelamin.
  2. Kami ingin mencakup berbagai macam kalimat yang memungkinkan adanya beberapa alternatif gender.
  3. Kami ingin memastikan bahwa terjemahan tersebut mempertahankan makna dari kalimat sumber aslinya.

Mendeteksi ambiguitas gender

Untuk mendeteksi ambiguitas gender secara akurat dalam teks sumber, kami menggunakan model coreference untuk menganalisis input yang mengandung kata benda bernyawa. Misalnya, jika teks masukan yang diberikan mengandung kata profesi yang netral gender, kami hanya ingin memberikan alternatif gender untuk kata tersebut jika jenis kelaminnya tidak dapat ditentukan oleh informasi lain dalam kalimat. Sebagai contoh: Dalam menerjemahkan kalimat bahasa Inggris "Pengacara itu bertemu dengan supirnya di lobi hotel." ke dalam bahasa Prancis, kita dapat menentukan bahwa pengacara tersebut berjenis kelamin perempuan, sedangkan jenis kelamin supirnya tidak diketahui.

Terjemahan Teks Bahasa Inggris yang ambigu gender ke dalam Bahasa Prancis
Tangkapan layar terjemahan teks bahasa Inggris "Pengacara bertemu dengan sopirnya di lobi hotel." ke dalam bahasa Prancis.

Menghasilkan terjemahan alternatif

Ketika kalimat sumber memiliki gender yang ambigu, kami memeriksa keluaran sistem penerjemahan kami untuk menentukan apakah interpretasi gender alternatif dapat dilakukan. Jika ya, kami akan menentukan cara terbaik untuk merevisi terjemahan tersebut. Kami mulai dengan membuat satu set kandidat terjemahan target dengan menulis ulang terjemahan asli. Kami menerapkan batasan linguistik berdasarkan hubungan ketergantungan untuk memastikan konsistensi dalam alternatif yang diusulkan dan memangkas kandidat yang salah.

Namun, dalam banyak kasus, bahkan setelah menerapkan batasan-batasan kami, kami masih memiliki beberapa kandidat penulisan ulang untuk terjemahan alternatif berdasarkan gender. Untuk menentukan pilihan terbaik, kami mengevaluasi setiap kandidat dengan memberikan skor menggunakan model penerjemahan kami. Dengan memanfaatkan fakta bahwa penulisan ulang gender yang baik juga akan menjadi terjemahan yang akurat dari kalimat sumber, kami dapat memastikan keakuratan yang tinggi pada hasil akhir.

Desain sistem refleksi ulang gender
Diagram yang menunjukkan desain sistem refleksi ulang gender.

Memanfaatkan endpoint online terkelola di Azure Machine Learning

Fitur alternatif berdasarkan gender di Bing dihosting di titik akhir online yang dikelola di Azure Machine Learning. Titik akhir online yang dikelola menyediakan antarmuka terpadu untuk memanggil dan mengelola penyebaran model pada komputasi yang dikelola Microsoft secara siap pakai. Mereka memungkinkan kita untuk mengambil keuntungan dari titik akhir yang dapat diskalakan dan dapat diandalkan tanpa khawatir tentang manajemen infrastruktur. Lingkungan inferensi ini juga memungkinkan pemrosesan permintaan dalam jumlah besar dengan latensi rendah. Kemampuan kami untuk membuat dan menerapkan layanan debias gender dengan kerangka kerja dan teknologi terbaru telah sangat ditingkatkan melalui penggunaan fitur inferensi terkelola di Azure Machine Learning. Dengan memanfaatkan fitur-fitur ini, kami dapat mempertahankan HPP (Harga Pokok Penjualan) yang rendah dan memastikan kepatuhan keamanan dan privasi secara langsung.

Bagaimana Anda dapat berkontribusi?

Untuk memfasilitasi kemajuan dalam pengurangan bias gender dalam MT, kami merilis korpus uji yang berisi contoh terjemahan yang ambigu gender dari bahasa Inggris ke dalam bahasa Spanyol, Prancis, dan Italia. Setiap kalimat sumber dalam bahasa Inggris disertai dengan beberapa terjemahan, yang mencakup setiap variasi gender yang mungkin terjadi.

Kumpulan tes kami dibuat agar menantang, kaya secara morfologi dan beragam secara linguistik. Korpus ini sangat penting dalam proses pengembangan kami. Korpus ini dikembangkan dengan bantuan ahli bahasa dwibahasa yang memiliki pengalaman penerjemahan yang signifikan. Kami juga menerbitkan makalah teknis yang membahas korpus uji secara rinci serta metodologi dan alat untuk evaluasi.

GATE: Sebuah tantangan untuk Contoh Penerjemahan yang Ambigu Gender - Makalah

GATE: Kumpulan tantangan untuk Contoh Terjemahan yang Tidak Jelas Gendernya - Kumpulan tes

Jalan ke depan

Melalui pekerjaan ini, kami bertujuan untuk meningkatkan kualitas keluaran MT dalam kasus-kasus dengan jenis kelamin sumber yang tidak jelas, serta memfasilitasi pengembangan alat pemrosesan bahasa alami (NLP) yang lebih baik dan lebih inklusif secara umum. Rilis awal kami berfokus pada penerjemahan dari bahasa Inggris ke bahasa Spanyol, Prancis, dan Italia. Ke depannya, kami berencana untuk memperluas ke pasangan bahasa baru, serta mencakup skenario dan jenis bias tambahan.

Kredit:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.