TOTAL översättningsbyrå

IBM:s mänskligaste dataröst gör skeppsdatorn HAL avundsjuk

Konsten att ge datorer en mänsklig röst

Att få en dator att generera ljud som påminner om mänskligt tal är relativt enkelt. Men att göra ett datorljud övertygande mänskligt är en helt annan och betydligt svårare utmaning.

IBM:s nya patent: Paralingvistisk teknik

Nu påstår dock IBM att de har utvecklat en syntetisk röst som är mer människolik än någon tidigare. Graden av mänsklig efterapning är så hög att rösten till och med kopierar typiska mänskliga egenheter genom att humma, staka sig och till och med sucka. Om den behöver fånga din uppmärksamhet kan den hosta till, och den kan till och med hyssja om du avbryter den.

Den nyligen patenterade tekniken är utformad för att ”generera paralingvistiska fenomen via markup i text-till-tal-synteser”. Den är avsedd för användning i automatiska telefonsystem, GPS-enheter och potentiellt även mobiltelefoner. Det sofistikerade ligger i den paralingvistiska aspekten – de subtila, icke-verbala ljud som gör en mänsklig röst unik. Som Andy Aaron från IBM:s röstforskningsteam förklarar: ”Dessa ljud kan vara otroligt subtila, till och med omärkliga, men de har en djup psykologisk effekt.” Systemet kan pausa för att skapa effekt, reagera på olika situationer genom att anpassa rösten och lära sig nya ljud som det sedan kan placera på rätt ställe i en mening.

Från HAL 9000 till dagens behov

Begripliga syntetiska röster har funnits i årtionden, från de första sjungande datorerna till den klassiska skeppsdatorn HAL 9000. Gemensamt för dessa tidiga talande maskiner är att de är uppenbart omänskliga, vilket kan leda till att vi misstror dem eller tycker illa om att lyssna på dem.

I takt med att dagens tekniska apparater blir alltmer avancerade finns det ett betydande utrymme för IBM:s nya talteknologi. Att ha en GPS-enhet som hostar till lite lätt och förklarar att du precis har missat en avfart, snarare än att få ett opersonligt meddelande om att rutten beräknas om, skulle vara en betydligt behagligare upplevelse. Ett automatiskt telefonsystem som lät mindre som en steril maskin vore inte heller fel.

En hårfin gräns: Att undvika den kusliga dalen

Det verkliga testet för IBM:s nya röst är hur den står sig mot den mest berömda datorrösten av alla: HAL 9000 från filmen 2001: Ett rymdäventyr från 1968. Rösten i filmen gjordes av en skådespelare, vald av Stanley Kubrick och Arthur C. Clarke just för att ge datorn en omisskännligt syntetisk klang. HAL talar med en orubbligt lugn ton i ett mycket sansat tempo – den varken hummar, stakar sig eller hostar.

Detta är också en viktig poäng för IBM. De vill inte att rösten ska passera den gräns där den blir så människolik att den upplevs som obehaglig – ett fenomen som ofta kallas för den ”kusliga dalen” (uncanny valley). Målet är inte att fullt ut efterapa en verklig person. ”Vi befinner oss nästan på den punkt där rösten är omöjlig att särskilja från en mänsklig, men det är inte vårt mål”, säger Andy Aaron. ”Vi vill inte lura någon.”