De schwalbe van Eugene

Ken je Eugene Goost­man? Goede kans dat je nog nooit van hem geho­ord hebt, maar toch is hij een kleine beroemd­heid. Nou ja, voor even dan. In bepaalde krin­gen. En dan ook nog eens onterecht.

Wie is deze beste knul? Eugene is een 13-jarige jon­gen uit Odessa in de Oekraïne. Hij is een tiener als alle andere. Zijn vad­er heeft een goede baan (als gynae­coloog), en hij heeft een cavia als huis­di­er. Er is alleen één dinget­je. Eugene bestaat niet.

Eugene Goost­man is de naam die zijn ontwikke­laars hebben gegeven aan een chat­bot – een com­put­er­pro­gram­ma dat net doet alsof het een mens is en zo een gesprek met je voert. Of: probeert te voeren. Denk aan Anna, de virtuele assis­tente op de IKEA-web­site; of Bil­lie, het hulp-man­net­je van bol.com. Je zult miss­chien al uit ervar­ing weten dat “prat­en” met zo’n chat­bot een alles­be­halve vanzelf­sprek­ende ervar­ing is.

Billie is de weg kwijt
Bil­lie is de weg kwijt

Eugene Goost­man geeft Anna en Bil­lie vanaf vorige maand het nakijken, want hij is het eerste soft­ware­pro­gram­ma dat ges­laagd is voor de Tur­ingtest. Nou ja… zijn mak­ers zeggen dat hij ges­laagd is voor die test, maar daar valt wat op af te din­gen. Allereerst: wat is de Tur­ingtest? (Taalei­doscoop heeft hier al eens eerder naar gekeken.) Deze test is ver­noemd naar Alan Tur­ing (1912−1954), een Britse wiskundi­ge en com­put­er­pi­onier. Hij stelde in 1950 de vraag: zou een machine ooit leren denken? En: hoe toets je dat dan? Zijn idee was om te kijken een imi­tatiespel: als een mens via een beeld­scherm een “tek­st­ge­sprek” voert met een ander, en als hij aan de gegeven antwo­or­den niet kan afzien of het om een mens of een com­put­er gaat – dan zeggen we dat de com­put­er “denkt”.

Eugene Goostman (zogenaamd 13 jaar) en Alan Turing op 16-jarige leeftijd
Eugene Goost­man (zoge­naamd 13 jaar) en Alan Tur­ing op 16-jarige leeftijd

Nu is dit nog wat wazig. Want hoe lang mag zo’n gesprek duren? Waarover gaat het? In welke taal? Met hoeveel sprek­ers? En zo kun je nog wel wat kant­tekenin­gen plaat­sen. In de loop der jaren zijn er ver­schil­lende ver­sies van de Tur­ingtest ontwikkeld, meestal met drama­tisch slechte resul­tat­en voor de com­put­er. Maar bij een recente test aan de uni­ver­siteit van Read­ing was er zowaar een pro­gram­ma dat de toets goed doorstond. Je raadt het al: onze vriend Eugene.

Maar deze ver­sie van de Tur­ingtest had de lat wel heel laag gelegd. Tur­ing had ooit de verwacht­ing uit­ge­spro­ken dat in het jaar 2000 een pro­gram­ma 30% van de menselijke gesprekspart­ners om de tuin zou kun­nen lei­den. En die 30% was dan ook de drem­pel die Eugene Goost­man (nét) haalde – na een serie gesprek­jes van slechts 5 minuten elk.

Zijn ontwer­pers kraaiden vic­to­rie, daar­bij voor­bi­j­gaand aan het feit (1) dat die 30% nooit als cri­teri­um voor de test was bedoeld, en (2) dat dus een kleine twee derde van de juryle­den hun chat­bot prob­leem­loos kon ont­maskeren. Tel daar­bij op dat de mak­ers ook een beet­je vals speelden: als jouw pro­gram­ma een ver­waande Oekraïense tiener nabootst die in een voor hem vreemde taal (Engels) com­mu­niceert, zijn een paar denk- en taal­fouten hier en daar al snel vergeven.

De Taalei­doscoop zegt dus: schwalbe! De manier waarop Eugene deze wed­stri­jd won is niet fair. Dit com­put­er­pro­gram­ma, waar al 13 jaar aan gesleuteld wordt door een inter­na­tion­aal team van soft­ware­mak­ers, kan echt niet claimen de Tur­ingtest doorstaan te hebben. Zow­el de pro­gram­meurs als de organ­isatoren (die immers de softe cri­te­ria vastleg­den) past de nodi­ge beschei­den­heid. Hoe moet het wel? Toon mij een chat­bot die een native speak­er nabootst en die in een lang gesprek 9 van de 10 juryle­den over­tu­igt, en dan hebben we het er nog eens over.

Vol­gende week filosofer­en we verder over of en hoe je dat zou kun­nen bereiken.

Wil je intussen zelf eens chat­ten met Eugene? Dat kan op deze web­site. (Beproef je geluk: vanaf jan­u­ari 2021 lijkt de site uit de lucht te zijn.) En kijk hier voor een ver­slag van een onbevredi­gend gesprek met Eugene – met feed­back van een van de ontwikkelaars.

Wat vind jij?