TOTAL översättningsbyrå

Kan nätverkad ”human computation” lösa datorers språkförståelse?

Kan ett onlinespel lära datorer att förstå mänskligt språk?

Forskare vid University of Essex lanserade för en tid sedan ett projekt som syftade till att svara på just den frågan. Genom att engagera frivilliga i onlinespelet Phrase Detectives, hoppades de kunna lösa en av de stora utmaningarna inom datalingvistik.

Språkets komplexa natur

Jon Chamberlain, från institutionen för datavetenskap och elektroteknik vid University of Essex, förklarade bakgrunden: ”Mänskligt språk är inte bara en osammanhängande följd av ord och fraser. Det är ett komplext nätverk där människor, objekt och idéer refererar till varandra på en mängd olika sätt. Denna komplexitet gör att ett språk upplevs som naturligt för en människa, men det är oerhört svårt att definiera de exakta regler som styr vår förståelse.”

Han fortsatte med ett exempel: ”Ta följande meningar: ’Mary är en lärare som är 25 år gammal. Hon bor i England.’ En mänsklig läsare förstår omedelbart att ordet ’hon’ syftar på ’Mary’ och kan på så vis samla fakta om hennes yrke, ålder och bostadsort. Att förstå den här typen av språkliga referenser, så kallade anaforer, är däremot en fundamental utmaning för programmerare som utvecklar system som försöker förstå text, exempelvis i sökmotorer, översättningsverktyg och sammanfattningstjänster.”

Phrase Detectives: Spelet som skapar data

Det var här som spelarna i Phrase Detectives kom in i bilden. Spelet, som var en del av ett större projekt kallat AnaWiki, var ett försök att lösa den flaskhals som uppstår när man skapar kommenterade lingvistiska resurser. Genom att systematiskt kartlägga anaforiska referenser var målet att bygga en resurs som var betydligt större än något som tidigare funnits tillgängligt.

Spelare, eller ”detektiver”, registrerade sig på webbplatsen och fick läsa igenom olika texter för att identifiera och markera relationer mellan ord och fraser. En typisk uppgift kunde vara att ”utse boven”, där spelaren fick ett ord eller en fras och skulle hitta vad den syftade på tidigare i texten. Till exempel, i meningen ”Sherlock Holmes gick till affären. Han köpte lite tobak till sin pipa”, skulle spelaren markera att ordet ”han” refererar till ”Sherlock Holmes”.

Målet: En ovärderlig resurs för framtidens teknik

Jon Chamberlain utvecklade resonemanget: ”De som spelade spelet hjälpte oss att skapa en resurs rik på lingvistisk information, vilket i sin tur kan förbättra framtida teknologier. Målet med projektet var att samla in en betydande mängd data och samtidigt undersöka potentialen i att använda crowdsourcing, eller massamarbete, för att träna och utveckla datasystem.”

”Det effektivaste sättet att lära en dator förstå ett språk är att ge den tillgång till en stor mängd exempel där innebörden redan har markerats. Tyvärr är den här typen av resurser både tidskrävande och dyra att skapa. Den nya metoden som Phrase Detectives erbjöd skulle kunna åtgärda denna resursbrist. Samma metodik kan även användas för att skapa resurser för maskinöversättning, semantisk analys och andra lingvistiska fenomen.”

Spel med ett syfte

Phrase Detectives tillhörde en genre av spel kallad ”spel med ett syfte” (GWAP – Games With A Purpose), vars mål är att samla in och strukturera data, oavsett om det gäller bilder, texter eller musik. Ett centralt element i dessa spel är att deltagarna får poäng genom att vara överens med varandra. Detta motiverar spelarna att samarbeta och anstränga sig för att lämna högkvalitativ information, eftersom det maximerar deras poäng genom största möjliga samstämmighet.

Forskarna vid Essex menade att Phrase Detectives var ett av de första försöken att samla in lingvistiska bedömningar med hjälp av ett underhållande och samarbetsinriktat onlinespel. Målet var att utforma uppgifterna och välja texter som var tillräckligt intressanta för att det skulle kännas mer som ett spel än en lingvistisk arbetsuppgift.

Resultat och eftermäle

De data som samlades in kunde sedan användas för att förbättra datasystem som försöker förstå text, till exempel genom att hjälpa sökmotorer att hitta information som är mer relevant för en användares sökning. De initiala resultaten från projektet, som presenterades kring 2009, ansågs lovande. Under de första veckorna gjorde spelarna över 40 000 markeringar.

Idag är spelet Phrase Detectives inte längre aktivt, men projektet var en viktig pionjär inom användningen av crowdsourcing för lingvistisk data-insamling. Den data som samlades in, känd som GWAP corpus, har blivit en värdefull resurs som använts i efterföljande forskning för att träna och testa nya generationers språkmodeller. Projektet visade att mänsklig beräkningskraft, paketerad i ett spel, verkligen kunde bidra till att lösa komplexa problem inom artificiell intelligens.