2006 började vi med maskininlärningsbaserade översättningar mellan engelska och arabiska, kinesiska och ryska. Nästan tio år senare, med dagens uppdatering, erbjuder vi nu 103 språk som täcker 99 % av onlinepopulationen.
De 13 nya språken – amhariska, korsikanska, frisiska, kirgiziska, hawaiiska, kurdiska (kurmanji), luxemburgska, samoanska, skotska gaeliska, shona, sindhi, pashto och xhosa – bidrar till att sammanlagt 120 miljoner nya användare kan sluta sig till de miljarder runt om i världen som redan kommunicerar med hjälp av Translate.
Vad krävs för att lägga till ett nytt språk? Förutom det grundläggande kriteriet att det måste vara ett skrivet språk behöver också en betydande mängd översättningar på det nya språket finnas tillgängligt på webben. Därefter använder vi oss av en kombination av maskininlärning, licensierat innehåll och Translate Community.
När vi söker igenom webben efter miljarder redan översatta texter använder vi maskininlärning för att identifiera statistiska mönster i enorm skala. På så sätt kan våra maskiner lära sig språket. Men eftersom de befintliga dokumenten inte kan täcka hela språkets omfattning är vi också beroende av våra användare i Translate Community. De hjälper till med att förbättra de nuvarande språken i Google Translate och att lägga till nya, som frisiska och kirgiziska. Hittills har över tre miljoner människor bidragit med cirka 200 miljoner översatta ord.
Innan du drar igång med översättningen, kommer här några roliga fakta om de nya språken:
- Amhariska (Etiopien) är det näst mest talade semitiska språket efter arabiska
- Korsikanska (ön Korsika, Frankrike) är nära besläktat med italienska och var Napoleons modersmål
- Frisiska (Nederländerna och Tyskland) är modersmål för över hälften av invånarna i provinsen Friesland i Nederländerna
- Kirgiziskan (Kirgizistan) är språket i manaseposet, vilket är 20 gånger längre än Iliaden och Odysséen tillsammans
- Hawaiianska (Hawaii) har lånat ut flera ord till det engelska språket, till exempel ukulele och wiki
- Kurdiska (kurmanji) (Turkiet, Irak, Iran och Syrien) skrivs med latinska bokstäver medan de andra två kurdiska varianterna skrivs med arabisk skrift
- Luxemburgiskan (Luxemburg) kompletterar listan över de officiella EU-språk som Translate täcker
- Samoanska (Samoa och Amerikanska Samoa) skrivs med endast 14 bokstäver
- Skotsk gaeliska (skotska högländerna, Storbritannien) introducerades av irländska bosättare på 300-talet efter Kristus
- Shona (Zimbabwe) är det mest spridda av de hundratals språken i bantufamiljen
- Sindhi (Pakistan och Indien) var modersmål för Muhammad Alijinnah, Pakistans fader
- Pashto (Afghanistan och Pakistan) skrivs i persoarabisk skrift med ytterligare tolv bokstäver, totalt 44 bokstäver
- Xhosa (Sydafrika) är det näst vanligaste språket i landet efter afrikaans och har tre typer av klick, representerade av bokstäverna x, q och c
Vi har kommit långt med över hundra språk, men vi är inte klara än. Om du vill hjälpa till är den internationella modersmålsdagen – som är runt hörnet den 21 februari – ett utmärkt tillfälle att engagera sig i Translate Community. Välj de språk du talar och välj sedan att antingen översätta fraser på egen hand eller att validera befintliga översättningar. Varje bidrag bidrar till att förbättra översättningens kvalitet med tiden. Det går också att dela med sig av feedback direkt från translate.google.com. När du provar de nya språken vill vi gärna få in förslag.
För varje nytt språk förbättrar vi våra översättningar med tiden. Det sker både genom att förbättra våra algoritmer och system och genom att lära oss av användarnas översättningar på Translate Community. Dagens uppdatering lanseras under de kommande dagarna.
Oavsett vilket språk du talar hoppas vi att dagens uppdatering gör det enklare att kommunicera med miljontals nya vänner och bryta språkbarriärer, en konversation i taget.