Provjera kvaliteta prevoda: blog gostiju
Anand Chakravarty je SDET u prevođenju stroja u zadnjih 2,5 godina, u Microsoftu je već osam godina, i bio je prvi koji je proizvodom proizvoda na MT timu (i "još uvijek se zabavlja s testiranjem MT:-)"). Današnji blog je o kvaliteti testiranja.
—————————————————————————————————————
Jedna od prvih tačaka koja mi pada na pamet, kada govorimo o verikaciji kvaliteta sistema prevodjenja, je kako izmerite kvalitet, ili da budete precizni, preciznost prevođenja? Prevođenje između ljudskih jezika koristeći kompjutere je polje koje je skoro pola stoljeća staro. Ta oblast je dovoljno izazovna da čak i najbolji trenutno dostupni sistemi za prevođenje mašina nisu blizu dobivanja jezičkih kvaliteta koji bi bili u potpunosti zadovoljavajući.
Dio izazova je mnogo različitih podataka-tačaka koje ljudi procesuiramo kako bi razumjeli značenje izgovorene/pisane poruke. Tu je Sintaksa, parsing, Semantika, kontekst, invalidnost, renaručivanje, sve to, i još više, ide u razumijevanje rečenice. A ovo je samo rečenica na jednom jeziku. Sada razmislite o primjeni svega za obnovu kazne na drugom jeziku i učiniti ga jednako smislenim.
Neki primjeri bi mogli pomoći da ovaj Point bude jasniji. Termin ' Olimpijada 2008 ' je prilično nedvosmislen. Slično tome, jedan bi mogao očekivati da termin ' izbori 2008 ' znače predsjednički izbori u sad-u. Međutim, ako je korisnik iz, recimo, Kanade, to bi se vjerovatno odnosit na lokalne izbore tamo.
General, a time i češće, primjer je rečenica kao što je "poruka je bila pogrešna". Da li je riječ "nota" referentna informativna poruka ili muzički termin? Pravilan Prevod zavisi od konteksta. Koristi više konteksta, i šanse da dobiješ precizniji prevod. Međutim, ovo dolazi na cijenu: što više konteksta koji sistem pokušava dobiti, to je sporiji performans. Pametne odluke o brodovima uključuju stvaranje prave ravnoteže između unaprjeđivanja preciznosti prevođenja i dostavljanje korisnih rezultata za korisnike. Naravno, oboje su važni. Ključ je shvatiti gdje usmjerite napore u zavisnosti zavisno od toga koliko je koristan krajnji rezultat je korisnik.
Ovo postaje posebno zanimljivo kad prevodiš dokumente ili web-stranice, umjesto samo pojedinačnih rečenica. Recimo da je zahtjev za prevođenje primljen za web stranicu koja sadrži 100 rečenica. Zavisno od arhitekture prevodilačku sistemu, ove kazne bi mogle ići na jedan proces, ili se distribuirati preko višestrukih procesa/mašina. U svakom slučaju, jasno je da je vrijeme za prevođenje ove stranice u cjelini proporcionalno do maksimalnog vremenskog poduka za prevođenje presude. Koliko dugo ćemo provesti prevođenje rečenice prije nego što se investira vrijeme na vrijeme korisnika? U poteri za najboljim prevodom, mogli bi da blokirate korisnika da bi dobili bilo šta informativno u odgovoru na njihov zahtev za prevođenje. Sistem je tako regulirao odluke koje su napravljene za ravnotežu lingvističkog kvaliteta i performansi aplikacije.
Sa Microsoftovim proizvodom za prevodioca, postoji dodatna osobina našeg Dvojezialnog preglednika, nešto jedinstveno među javno dostupnim proizvodima za prevođenje. Ona podržava paralelno osvjetljenje teksta, sinhronizovano i prikazuje stranicu (e) sa progresivnim vizuelima. Ovo dodaje još jedan sloj na ono što naši korisnici vide, i shodno tome, još jedan sloj koji će ispolirati i završiti.
U narednim sedmicama, nadamo se da ćemo vam donijeti više detalja o određenim područjima koje su bile i testirati se da se prevode vrhunski prevodilačku sistem. Slobodno postavite sva pitanja koja imate o ovom slučaju, nešto što ste uvijek željeli da postavite u komentarima.