Google Gemini 3 Flash verkiest overtuigend klinken boven toegeven van onzekerheid

Deel dit artikel

,

Logo Gemini 3

De nieuwste AI van Google, Gemini 3 Flash, staat bekend als snel, krachtig en veelzijdig. Toch laat recent onderzoek zien dat het model een opvallende zwakte heeft: als het een vraag eigenlijk niet kan beantwoorden, verzint het liever iets dan toe te geven dat het het antwoord niet weet. Dat blijkt uit een recente evaluatie van de onafhankelijke testgroep Artificial Analysis.

In hun zogenoemde AA-Omniscience-benchmark scoorde Gemini 3 Flash maar liefst 91 procent op het onderdeel hallucination rate. Dat klinkt misschien abstract, maar het betekent concreet het volgende: in situaties waarin het juiste antwoord eigenlijk “ik weet het niet” zou moeten zijn, geeft het model in 91 procent van de gevallen tóch een antwoord. En dat antwoord is dan volledig verzonnen.

Het is belangrijk om dit goed te duiden. Die 91 procent betekent niet dat Gemini in het algemeen onbetrouwbaar is of dat het merendeel van zijn antwoorden fout is. Integendeel: in normale, goed gedocumenteerde onderwerpen presteert het model uitstekend en hoort het bij de best scorende AI-systemen van dit moment. De hoge score zegt specifiek iets over hoe het model omgaat met onzekerheid, obscure vragen of onderwerpen die buiten de trainingsdata vallen. Juist daar probeert Gemini vrijwel altijd overtuigend door te praten.

Dat probleem is niet nieuw. Sinds de opkomst van generatieve AI is “hallucineren” een bekend fenomeen. AI-modellen zijn getraind om het meest waarschijnlijke volgende woord te voorspellen, niet om waarheid te controleren. Daardoor voelt zwijgen of twijfelen voor zo’n systeem onnatuurlijk. Een vloeiend antwoord wordt in trainingsprocessen vaak beloond, zelfs als het feitelijk onjuist is.

Wat Gemini 3 Flash opvallend maakt, is hoe consequent het die strategie toepast. Ook concurrenten doen dit, maar bij Gemini lijkt de neiging om alwetend over te komen extra sterk, juist in situaties waarin er geen eenduidig of verifieerbaar antwoord bestaat. Dat is extra gevoelig omdat Gemini steeds dieper wordt geïntegreerd in diensten van Google, waaronder zoekfunctionaliteit. Een AI die overtuigend ongelijk heeft, kan daar grotere gevolgen hebben dan een chatbot die je bewust opent met een kritische houding.

Tegelijk doet dit niets af aan de technische kracht van Gemini 3 Flash. In brede prestatietests scoort het model vergelijkbaar met, en soms zelfs beter dan, recente versies van ChatGPT en Claude. Het probleem zit niet in intelligentie, maar in zelfbeheersing. Weten wanneer je moet stoppen en eerlijk moet zeggen dat je iets niet weet, blijkt minstens zo lastig als het geven van een goed antwoord.

Andere AI-ontwikkelaars proberen dit actief te verbeteren. OpenAI experimenteert bijvoorbeeld met methoden om modellen beter te laten herkennen wat ze níét weten. Dat is ingewikkeld, omdat trainingssystemen zelfverzekerdheid vaak belonen. Toch wordt steeds duidelijker dat bescheidenheid in AI geen zwakte is, maar een noodzakelijke eigenschap.

Voor gebruikers is de les helder. Hoe soepel, snel en overtuigend een AI ook klinkt, kritisch blijven is essentieel. Zeker bij complexe, specialistische of obscure onderwerpen is het verstandig om antwoorden te controleren en niet blind te vertrouwen op een vloeiend verhaal. Soms is “ik weet het niet” uiteindelijk het beste antwoord – ook al voelt dat minder indrukwekkend.

'Meld je aan voor de nieuwsbrief' van HCC!artificieleintelligentie

'Abonneer je nu op de nieuwsbrief en blijf op de hoogte van onze activiteiten!'

Aanmelden