Bingovi rodni prijevodi bave se pristranošću u prijevodu
Uzbuđeni smo što možemo objaviti da su od danas dostupni muški i ženski alternativni prijevodi prilikom prevođenja s engleskog na španjolski, francuski ili talijanski. Ovu novu značajku možete isprobati u obje Pretraživanje tražilice Bing I Prevoditelj Bing Vertikale.
Tijekom posljednjih nekoliko godina, područje strojnog prevođenja (MT) revolucionirano je pojavom modela transformatora, što je dovelo do ogromnih poboljšanja kvalitete. Međutim, modeli optimizirani za hvatanje statističkih svojstava podataka prikupljenih iz stvarnog svijeta nehotice uče ili čak pojačavaju društvene pristranosti koje se nalaze u tim podacima.
Naše najnovije izdanje korak je prema smanjenju jedne od ovih predrasuda, posebno rodne pristranosti koja prevladava u MT sustavima. Bing Translator je uvijek proizvodio jedan prijevod za ulaznu rečenicu čak i kada su prijevodi mogli imati druge rodne varijacije, uključujući ženske i muške varijante. U skladu s Microsoftova načela odgovorne umjetne inteligencije, želimo osigurati da pružimo ispravne alternativne prijevode i da smo uključiviji za sve spolove. U sklopu ovog putovanja naš prvi korak je pružiti ženske i muške varijante prijevoda.
Spol se različito izražava na različitim jezicima. Na primjer, na engleskom jeziku, riječ odvjetnik može se odnositi ili na mušku ili žensku osobu, ali na španjolskom, abogada odnosio bi se na odvjetnicu, dok abogado odnosio bi se na muški. U nedostatku informacija o spolu imenice kao što je "odvjetnik" u izvornoj rečenici, modeli MT-a mogu pribjeći odabiru proizvoljnog spola za imenicu na ciljnom jeziku. Često su ti proizvoljni rodni zadaci u skladu sa stereotipima, održavajući štetnu društvenu pristranost (Stanovsky i sur., 2019.; Ciora i sur., 2021)) i što dovodi do prijevoda koji nisu u potpunosti točni.
U primjeru u nastavku primjećujete da, dok prevodi rodno neutralne rečenice s engleskog na španjolski, prevedeni tekst slijedi stereotipnu rodnu ulogu, tj.
Budući da u izvornoj rečenici ne postoji kontekst koji podrazumijeva spol odvjetnika, izrada prijevoda uz pretpostavku muškog ili ženskog odvjetnika bila bi valjana. Sada Bing Translator proizvodi prijevode sa ženskim i muškim oblicima.
Dizajn sustava
Cilj ovog Cochrane sustavnog pregleda bio je osmisliti kako bi ispunio sljedeće ključne kriterije za pružanje rodno uvjetovanih alternativa:
- Ženske i muške varijante trebale bi imati minimalne razlike, osim onih potrebnih za prenošenje spola.
- Željeli smo pokriti širok raspon rečenica u kojima je moguće više rodno uvjetovanih alternativa.
- Željeli smo osigurati da prijevodi sačuvaju značenje izvorne izvorne rečenice.
Otkrivanje rodne dvosmislenosti
Kako bismo točno otkrili rodnu dvosmislenost u izvornom tekstu, koristimo model osnovneferencije za analizu ulaza koji sadrže imenice za animiranje. Na primjer, ako određeni ulazni tekst sadrži rodno neutralnu riječ struke, želimo joj pružiti rodno uvjetovane alternative samo ako se njegov spol ne može odrediti drugim informacijama u rečenici. Na primjer: Prilikom prevođenja engleske rečenice "Odvjetnica se susrela sa svojim vozačem u predvorju hotela." na francuski možemo utvrditi da je odvjetnik ženskog spola, dok spol vozača nije poznat.
Generiranje alternativnog prijevoda
Kada je izvorna rečenica dvosmisleno rodno uvjetovana, ispitujemo izlaz našeg sustava prevođenja kako bismo odlučili je li moguće alternativno tumačenje spola. Ako je tako, nastavljamo s određivanjem najboljeg načina revizije prijevoda. Započinjemo izradom skupa prijevoda ciljnih kandidata prepisivanjem izvornog prijevoda. Primjenjujemo jezična ograničenja koja se temelje na odnosima ovisnosti kako bismo osigurali dosljednost u predloženim alternativama i obrezali pogrešne kandidate.
Međutim, u mnogim slučajevima, čak i nakon primjene naših ograničenja, ostaje nam više prepisivanja kandidata za rodno uvjetovani alternativni prijevod. Da bismo odredili najbolju opciju, svakog kandidata ocjenjujemo bodovanjem s našim modelom prijevoda. Koristeći činjenicu da će dobar prepisivanje spola također biti točan prijevod izvorne rečenice, u mogućnosti smo osigurati visoku točnost u našem konačnom ostvarenju.
Iskorištavanje upravljanih internetskih krajnjih točaka u servisu Azure Machine Learning
Rodna alternativna značajka u servisu Bing smještena je na upravljane mrežne krajnje točke in Azure Machine Learning. Upravljane mrežne krajnje točke pružaju jedinstveno sučelje za pozivanje i upravljanje implementacijama modela na računalu kojim upravlja Microsoft na način "ključ u ruke". Omogućuju nam da iskoristimo skalabilne i pouzdane krajnje točke bez brige o upravljanju infrastrukturom. Ovo okruženje za zaključivanje također omogućuje obradu velikog broja zahtjeva s niskom latencijom. Naša sposobnost stvaranja i implementacije usluge rodnih debija s najnovijim okvirima i tehnologijama uvelike je poboljšana korištenjem značajki upravljanog zaključivanja u Azure Machine Learningu. Korištenjem ovih značajki uspjeli smo održati nizak COGS (Trošak prodane robe) i osigurati izravnu usklađenost sa sigurnošću i privatnošću.
Kako možete doprinijeti?
Kako bismo olakšali napredak u smanjenju rodne pristranosti na MT-u, objavljujemo testni korpus koji sadrži rodno dvosmislene prijevodne primjere s engleskog na španjolski, francuski i talijanski jezik. Svaka izvorna rečenica engleskog jezika popraćena je višestrukim prijevodima, koji pokrivaju svaku moguću varijaciju spola.
Naš testni set konstruiran je da bude izazovan, morfološki bogat i jezično raznolik. Ovaj korpus je bio ključan u našem razvojnom procesu. Razvijen je uz pomoć dvojezičnih lingvista sa značajnim prevoditeljskim iskustvom. Objavljujemo i tehnički rad u kojem se detaljno raspravlja o ispitnom korpusu te metodologiji i alatima za evaluaciju.
GATE: Postavljen izazov za rodno dvosmislene primjere prijevoda – papir
GATE: Postavljen izazov za rodno dvosmislene primjere prijevoda – skup testova
Put naprijed
Ovim radom nastojimo poboljšati kvalitetu MT outputa u slučajevima dvosmislenog izvornog spola, kao i olakšati razvoj boljih i inkluzivnijih alata za obradu prirodnog jezika (NLP) općenito. Naše početno izdanje usredotočeno je na prevođenje s engleskog na španjolski, francuski i talijanski. U budućnosti planiramo proširiti na nove jezične parove, kao i pokriti dodatne scenarije i vrste pristranosti.
Kredita:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.