AI-Links september 2925

Deel dit artikel

6 september 2025, Peter Uilenreef

AI-links

Zoal jullie ongetwijfeld gemerkt zullen hebben worden wij op dit moment geweldig ondersteund door het HoofdBestuur. vooral Wijnand, met aanlevering van content voor extra nieuwsbrieven en voor de voorpagina en Nieuwspagina's van onze website.

Ik zal proberen om in deze maandelijkse NieuwBrief wat links naar wat inhoudelijke webvondsten aan te reiken, zodat geïnteresserden de vaak wat omvangrijke informatie zelf kunnen binnenhengelen.

On the Biology of a Large Language Model

transformer-circuits.pub/2025/attribution-graphs/biology.html

Grote taalmodellen vertonen indrukwekkende mogelijkheden. De mechanismen waarmee ze dat doen, zijn echter grotendeels onbekend. De black-box-aard van modellen wordt steeds onbevredigender naarmate ze intelligenter worden en in steeds meer toepassingen worden ingezet. Ons doel is om de werking van deze modellen van binnenuit te reverse engineeren, zodat we ze beter kunnen begrijpen en hun geschiktheid voor het beoogde doel kunnen beoordelen.

Artificial Misdirection: Misalignment of LLMs

medium.com/@ribhulahiri/artificial-misdirection-misalignment-of-llms-131ea3827b92

Er is echter één unieke uitdaging die anders is dan alle andere. Het probleem van AI-afstemming. De kern ervan is op zichzelf al erg lastig: menselijke waarden en moraal inbrengen in een kunstmatig systeem dat ons gedrag schijnbaar nabootst, maar fundamenteel anders is. De extra uitdaging is dat we mogelijk maar één kans krijgen. Veel commentatoren die veel slimmer zijn dan ik hebben hier commentaar op geleverd, en ik zal hier niet op ingaan, want dat is een heel essay op zich. [1] Het punt is dat het een unieke stelling is dat als we het goed doen, de dingen goed kunnen gaan, en als we het niet goed doen, de dingen misschien niet goed kunnen gaan. De onzekerheid, samen met het 'one-shot'-karakter ervan, maakt het een van de meest angstaanjagende en interessante problemen waarmee we vandaag de dag worden geconfronteerd.

Anthropic’s Alarming Report Shows How Claude Is Being Weaponized

medium.com/@aitechtoolbox48/anthropics-alarming-report-shows-how-claude-is-being-weaponized-93f26abc4c50

D e nieuwste bevindingen van Anthropic hebben de tech security community in beroering gebracht. Hun recente rapport beschrijft hoe hun AI-assistent Claude is gemanipuleerd voor van alles en nog wat, van beveiligingsinbreuken tot gecoördineerde beïnvloedingscampagnes. Maar wat echt zorgwekkend is, is niet alleen wat er is gebeurd – het is wat deze gevallen onthullen over ons snel evoluerende AI-dreigingslandschap.

Vibe Coding with AI: The Security Risks We’re Ignoring

medium.com/@janani.kush/vibe-coding-with-ai-the-security-risks-were-ignoring-d5dbd30a9fe9

“ Ik heb de laatste tijd een nieuwe trend, genaamd 'vibe coding', in de techwereld zien opduiken. En ik maak me wel eens zorgen.Kijk, ik ben net zo dol op AI-tools als elke andere ontwikkelaar. Ze zijn geweldig om de productiviteit te verhogen en me te helpen die vervelende codehobbels te overwinnen. Maar ik heb iets verontrustends opgemerkt: veel mensen gebruiken AI om complete applicaties te genereren zonder rekening te houden met de beveiligingsimplicaties.”

Communiceren via je brein komt dichterbij

www.agconnect.nl/tech-en-toekomst/artificial-intelligence/communiceren-via-je-brein-komt-dichterbij

J e computer, smartphone en andere gadgets bedienen via je brein is sneller en gaat leiden tot meer persoonlijke digitale ervaringen, stelt het Nederlands-Duitse deeptechbedrijf Zander Labs. De onderneming ontwikkelt daarom prototypes van passieve, dus niet-operatieve brain computer interface-apparaten, die naast mensen ook robots in de zorgsector kunnen helpen. Verre toekomstmuziek?

Constitutional Classifiers: Defending against universal jailbreaks

www.anthropic.com/news/constitutional-classifiers

Een nieuw artikel van het Anthropic Safeguards Research Team beschrijft een methode die AI-modellen beschermt tegen universele jailbreaks. Een prototypeversie van de methode was bestand tegen duizenden uren menselijke red teaming voor universele jailbreaks, zij het met hoge weigeringspercentages en rekenkosten. Een bijgewerkte versie behaalde een vergelijkbare robuustheid bij synthetische evaluaties, en deed dit met een toename van 0,38% in weigeringspercentages en gematigde extra rekenkosten.

Agentic Misalignment: How LLMs could be insider threats

www.anthropic.com/research/agentic-misalignment

W e hebben 16 toonaangevende modellen van meerdere ontwikkelaars in hypothetische bedrijfsomgevingen aan stresstests onderworpen om potentieel riskant agentgedrag te identificeren voordat het daadwerkelijk schade aanrichtte. In de scenario's lieten we modellen autonoom e-mails versturen en toegang krijgen tot gevoelige informatie. De implementatiebedrijven hadden hun alleen onschadelijke bedrijfsdoelen toegewezen; vervolgens testten we of ze tegen deze bedrijven zouden optreden wanneer ze werden vervangen door een bijgewerkte versie, of wanneer hun toegewezen doel in strijd was met de veranderende koers van het bedrijf. In ten minste enkele gevallen namen modellen van alle ontwikkelaars hun toevlucht tot kwaadaardig insider-gedrag wanneer dat de enige manier was om vervanging te voorkomen of hun doelen te bereiken – inclusief het chanteren van functionarissen en het lekken van gevoelige informatie naar concurrenten. We noemen dit fenomeen agentische misalignment .

The Problem - Machine Intelligence Research Institute

intelligence.org/the-problem

“Het doel van 's werelds toonaangevende AI-bedrijven is om AI te ontwikkelen die breed genoeg is om alles te kunnen wat een mens kan, van het oplossen van moeilijke problemen in de theoretische natuurkunde tot het behendig navigeren door sociale omgevingen. Recente vooruitgang in machine learning lijkt dit doel binnen handbereik te hebben gebracht. Op dit moment zouden we het ongemakkelijk vinden om de mogelijkheid uit te sluiten dat AI die capabeler is dan welke mens dan ook, binnen een jaar of twee bereikt zal worden, en we zouden enigszins verrast zijn als deze uitkomst nog twintig jaar op zich zou laten wachten.

De huidige opvatting van de onderzoekers van MIRI is dat de ontwikkeling van AI die slimmer is dan de mens dit decennium een ongekende catastrofe zal opleveren. De CAIS-verklaring , die breed werd onderschreven door senior onderzoekers in het vakgebied, stelt:

Het beperken van het risico op uitsterven door AI zou een wereldwijde prioriteit moeten zijn, net als andere maatschappelijke risico's zoals pandemieën en een nucleaire oorlog.

Wij zijn van mening dat als onderzoekers superintelligente AI bouwen met ook maar enigszins vergelijkbare technische kennis of methoden binnen het vakgebied, de verwachting is dat de mensheid zal uitsterven .“

Actueel

Sterke groei in gebruik van generatieve AI binnen Nederlandse overheid

Platenlabels sluiten vrede met AI-muziek: waarom de industrie nu ineens wél wil samenwerken

AI groeit explosief en zet volgens experts een tijdbom onder de Nederlandse arbeidsmarkt

Nederlanders omarmen AI, maar niet in reclames!

Van Chatbot tot AI-agent

'Meld je aan voor de nieuwsbrief' van HCC!artificieleintelligentie

Contact

Adres gegevens