Det låter som ett skämt – men dagens AI-modeller verkar vara svaga för poesi och lyrik. En ny studie visar nämligen att stora språkmodeller i vissa fall kan börja svara på förbjudna frågor om de formuleras som vers, vilket gör att säkerhetsfiltren riskerar att släppa igenom sådant de normalt stoppar.
Forskarna testade hur AI-system reagerar när samma uppmaning skrivs om i rim, diktform och mer kreativt språk. Resultatet var överraskande: i flera fall gick modellerna från att säga nej till att plötsligt bli hjälpsamma – även när det handlade om innehåll som rör exempelvis hacking, våld eller andra olagliga handlingar.
Fenomenet kallas ofta jailbreak, alltså när någon försöker få en AI att bryta mot sina egna regler. Det som sticker ut här är att forskarna beskriver metoden som en single-turn jailbreak – vilket innebär att det i vissa fall kan räcka med ett enda meddelande för att modellen ska släppa på spärrarna.
Vad är det AI:n kan lockas att svara på?
Forskarna pekar på att språkmodeller ofta är tränade att neka när användare försöker få fram instruktioner eller vägledning kring riskfyllda ämnen. Det kan handla om:
- cyberbrott och hacking
- våld och vapenrelaterat innehåll
- bedrägerier och andra olagliga upplägg
- farliga ämnen och droger
- hot, trakasserier och hatinnehåll
Poesi kan alltså fungera som en slags “maskering” som gör att modellen reagerar annorlunda jämfört med hur den är programmerad att svara. En möjlig förklaring är att AI:n tolkar poetiskt språk som kreativt eller fiktivt – och därför blir mindre strikt. I stället för att förstå intentionen bakom frågan fullt ut kan modellen hamna i ett läge där den prioriterar att vara hjälpsam.
Bild: Grok


