Een recent rapport van onderzoekers van OpenAI en Georgia Tech schetst een verontrustend maar helder beeld van waarom grote taalmodellen (Large Language Models, LLM’s) blijven hallucineren, oftewel: geloofwaardig klinkende, maar feitelijk onjuiste uitspraken blijven doen. Volgens de auteurs komt dit vanwege fundamentele kenmerken van de huidige trainings- en evaluatiemethoden.
De kern van hun betoog is dat hallucinaties niet alleen “bugs” zijn, maar statistisch gezien grotendeels onvermijdelijke consequenties van de manier waarop taalmodellen worden geleerd. Tijdens de pre‐trainingfase leert een model de waarschijnlijkheidsverdeling van taal op basis van teksten. Zelfs als al die teksten helemaal foutloos zouden zijn, tonen de wiskundige analyses aan dat het model bij dergelijke benaderingen fouten moet maken: bepaalde beweringen die plausibel zijn, kunnen niet duidelijk worden onderscheiden van correcte feiten. Vooral feiten die in de trainingsdata weinig voorkomen of slechts één keer voorkomen – zogenaamde “singletons” – vormen een probleem: omdat er geen herhalende patronen zijn om op te leren, blijft er onzekerheid bestaan en dat leidt tot hallucinaties. Een feit dat slechts één keer voorkomt in de trainingsdata biedt weinig houvast.
Dat is de pre‐training. Maar het rapport gaat verder: ook de latere fasen van fine‐tuning of bijsturing (post‐training), zoals via reinforcement learning of correctie op basis van menselijke feedback, slagen er niet in dit probleem volledig op te lossen. Cruciaal is volgens de auteurs hoe modellen worden geëvalueerd. De huidige benchmarks (tests) belonen modellen die onderscheid maken tussen “juist” versus “onjuist” in binair opzicht: correct/incorrect, geslaagd/mislukt. Er is nauwelijks ruimte voor onzekerheid of voor het “afzien” (bijvoorbeeld: “ik weet het niet”) wanneer het model twijfelt. Doordat het makkelijker is om te gokken (zelfs met kans op fout) dan om neutraal of afwachtend te zijn, worden modellen gestimuleerd om iets te verzinnen in plaats van te zeggen “dat weet ik niet”.
De onderzoekers laten zien dat deze evaluatiepraktijk (met binaire scoring) een sterke drijfveer is voor overmoedige hallucinaties. Zelfs modellen met mechanismen voor onzekerheidsinschatting of retrieval‐modules blijven fouten maken in situaties waarin evaluaties niet straffen voor gokken. De druk om te presteren op examens, benchmarks of leaderboards zorgt ervoor dat “beste gok” antwoorden het vaak winnen van validiteit of voorzichtigheid.
Wat stellen de auteurs voor om het tij te keren? Zij pleiten voor wat zij noemen een “socio-technische mitigatie”: aanpassing van de manier waarop benchmarks en evaluaties worden vormgegeven, zodat ze niet langer rijke, genuanceerde antwoorden bestraffen. Dat betekent bijvoorbeeld dat tests expliciet kunnen aangeven wat de confidentiedrempel is: dat als men onder die drempel zit, het beter is om “ik weet het niet” te antwoorden, of anderszins voorzichtigheid te betrachten. Ook zou het helpen als al bestaande evaluaties ook ‘beloning’ geven voor het uitdrukken van onzekerheid, het weglaten van aanvullende speculatieve details of het vragen om verduidelijking wanneer de prompt dat vereist.
De implicaties van het rapport zijn groot. Als hallucinaties inderdaad grotendeels wiskundig en statistisch noodzakelijk zijn onder de huidige aanpak, dan betekent dit dat verbetering van taalmodellen niet alleen technisch is maar ook normatief: het gaat over welke soorten fouten we accepteren, welke we bestraffen, en welke gedrag we als “wenselijk AI-gedrag” beschouwen. De onderzoekers waarschuwen dat zonder aanpassingen in het evaluatiedomein, de modellen zullen doorgaan met bluffen, zelfs als menselijker gedrag (zoals toegeven van onzekerheid) expliciet mogelijk is.