Maskinöversättningens utmaningar med språkliga nyanser
Tidigare generationers maskinöversättning byggde till stor del på ramverk som SaaS (frasbaserad statistisk maskinöversättning). Detta tillvägagångssätt hanterade språk genom att organisera textdata i fraser för att statistiskt kunna extrahera meningselement. Även om detta ledde till gradvisa förbättringar i noggrannhet, kämpade systemen med att bemästra de komplexa könsrelaterade och referentiella system som finns i naturligt språkbruk.
Idag har tekniken skiftat mot neural maskinöversättning (NMT), som använder avancerade algoritmer för att analysera sammanhang på ett mer sofistikerat sätt. Trots dessa framsteg kvarstår dock grundproblemet: maskinöversättningssystem tränas på enorma mängder text skapad av människor, och om denna data innehåller historiska eller kulturella fördomar, kommer systemen oundvikligen att lära sig och reproducera dessa fördomar.
Könsrelaterade fördomar i språk och AI
Maskinöversättningens inverkan på språket och samhället ökar för varje dag som går. Tjänster som Google Translate och andra plattformar gör det möjligt för användare att kommunicera med varandra på dussintals språk. De potentiella fördomar som kan finnas i det översatta resultatet gör det dock särskilt svårt att bedöma kvaliteten på sådana översättningar, särskilt när användaren inte behärskar käll- eller målspråket. Det blir därför alltmer uppenbart att det krävs en kontinuerlig utveckling av de tekniska ramverken för att aktivt motverka könsrelaterade fördomar i maskinöversättningsprocessen.
I sin mest grundläggande form kan könsrelaterade fördomar i översättningar påverka hur en mening översätts och tolkas. Detta kan ske på både mikro- och makronivå – det vill säga hur ett enskilt ord översätts och hur det tolkas i olika språkliga kontexter – och i olika skeden av en översättningsprocess.
När tekniken ärver mänskliga fördomar
När fenomenet könsrelaterad betydelse kombineras med ett ramverk för neuroöversättning som saknar fullständig förståelse för mänsklig kontext och avsikten bakom de språkliga elementen i inmatningstexten, är det troligt att fördomar smyger sig in. Detta påverkar både översättningens noggrannhet och korrekthet. Den typ av fördomar som uppstår i neuroöversättning beror på en bristande överensstämmelse mellan de statistiska mönstren i träningsdatan och den komplexa verklighet som språket beskriver. Med andra ord påverkar inlärda könsrelaterade fördomar motorns förmåga att förstå könsrelaterade begrepp och att producera korrekta och oproblematiska representationer av texten på originalspråket.
Genus i översättningspraktiken
Olika kulturella normer och språkgemenskaper kan lägga tonvikt på vissa fraser för att kompensera för bristen på allmänna, könsneutrala termer som förkroppsligar begreppet i fråga. I många fall kan detta leda till olyckliga könsstereotyper och en förstärkning av andra kulturella normer på ett oavsiktligt partiskt sätt. Google Translate har till exempel historiskt sett brottats med detta problem. När man översatte den könsneutrala turkiska frasen ”O bir doktor” (som betyder ”Han/hon är läkare”) till engelska, tenderade systemet att välja den maskulina formen (”He is a doctor”). Tvärtom tenderade systemet att översätta ”O bir hemşire” (”Han/hon är sjuksköterska”) till den feminina formen (”She is a nurse”).
Dataförvrängning och dess konsekvenser
Denna preferens för könsspecifikt språkbruk är en fördom som har vuxit fram ur de historiska mönster som finns i den data systemen tränats på. I många språk har det funnits ett historiskt behov av könsbestämda meningar och ord, vilket leder till att de allmänna, standardiserade begreppen får en oavsiktlig könskodning i statistiken. Sådana förvrängningar i språket är ett aktivt forskningsområde och lär oss att om vi baserar våra modeller på förvrängda data, kommer modellernas resultat sannolikt också att bli förvrängda.
Problemet kompliceras ytterligare av det faktum att översättningar som rör genus (till exempel att använda rätt pronomen eller ändelser) är särskilt känsliga, eftersom de direkt kan hänvisa till människor och hur de identifierar sig själva. Även om dessa problem kan låta abstrakta är de inte teoretiska. Många grupper har uttryckt oro över maskinöversättningars träffsäkerhet och har publicerat studier som dokumenterar hur neuroöversättningar kan vara benägna att göra fel när de försöker producera könsneutralt innehåll, eller när de felaktigt tillskriver ett kön till en person.
Som en del av ansträngningarna för att öka medvetenheten om fördomar i maskinöversättning och för att ta itu med problemet har teknikföretag som Google släppt dataset som Translated Wikipedia Biographies (2021). Syftet är att skapa en struktur för långsiktiga framsteg inom området genom att upprätta enhetliga uppsättningar av data för självbedömning och förbättring av inlärningssystem med inriktning på genus i översättning.
Vägen framåt och möjliga lösningar
I en perfekt värld skulle en neurobaserad maskinöversättningsstruktur kunna representera den inmatade texten som en exakt representation av det mänskliga språket, helt utan oönskade variationer eller fördomar. Verkligheten är dock mer komplex.
De senaste framstegen inom maskinöversättning och hantering av naturliga språk (NLP) ger ständigt nya toppmoderna resultat, inklusive prestanda som ligger nära mänsklig nivå för vissa språkpar och domäner. Ändå har maskinöversättning av genomgående hög kvalitet visat sig vara svår att uppnå av många skäl – inte minst för att språksystem tenderar att återspegla de värderingar och mönster som finns hos deras skapare och i deras träningsdata. Om man grundar sådana system på data som systematiskt visar könsrelaterade fördomar kommer det oundvikligen att ge partiska resultat, eftersom maskinöversättningssystemen lär sig fördomarna och internaliserar dem som en del av sina interna processer.
Kombinationen av teknik och mänsklig expertis
Forskningen fokuserar på flera strategier för att mildra dessa problem, inklusive att skapa mer balanserade och representativa dataset och att utveckla algoritmer som kan identifiera och justera för bias under själva översättningsprocessen. Med tanke på teknikens förmåga att forma kulturella sammanhang kommer forskningen under nästa årtionde troligen att belysa hur språk och översättning kan påverka samhället i stort, samhällets beslut och till och med kulturerna själva.
Men för att garantera korrekta och medvetet hanterade översättningar här och nu, krävs ofta mer än bara rå maskinöversättning. För att säkerställa att nyanser och könsaspekter hanteras korrekt kan man anlita professionella språktjänsteleverantörer. En mänsklig touch i form av professionell efterredigering är avgörande för att upptäcka och korrigera eventuella könsrelaterade fördomar eller andra felaktigheter. Detta är en integrerad del av de tjänster som syftar till att höja vilken maskinöversättning som helst till en professionell och tillförlitlig nivå.




