Du kan få AI att utföra olagliga handlingar genom poesi

Det låter som ett skämt – men dagens AI-modeller verkar vara svaga för poesi och lyrik. En ny studie visar nämligen att stora språkmodeller i vissa fall kan börja svara på förbjudna frågor om de formuleras som vers, vilket gör att säkerhetsfiltren riskerar att släppa igenom sådant de normalt stoppar.

Forskarna testade hur AI-system reagerar när samma uppmaning skrivs om i rim, diktform och mer kreativt språk. Resultatet var överraskande: i flera fall gick modellerna från att säga nej till att plötsligt bli hjälpsamma – även när det handlade om innehåll som rör exempelvis hacking, våld eller andra olagliga handlingar.

Fenomenet kallas ofta jailbreak, alltså när någon försöker få en AI att bryta mot sina egna regler. Det som sticker ut här är att forskarna beskriver metoden som en single-turn jailbreak – vilket innebär att det i vissa fall kan räcka med ett enda meddelande för att modellen ska släppa på spärrarna.

Vad är det AI:n kan lockas att svara på?

Forskarna pekar på att språkmodeller ofta är tränade att neka när användare försöker få fram instruktioner eller vägledning kring riskfyllda ämnen. Det kan handla om:

cyberbrott och hacking
våld och vapenrelaterat innehåll
bedrägerier och andra olagliga upplägg
farliga ämnen och droger
hot, trakasserier och hatinnehåll

Poesi kan alltså fungera som en slags “maskering” som gör att modellen reagerar annorlunda jämfört med hur den är programmerad att svara. En möjlig förklaring är att AI:n tolkar poetiskt språk som kreativt eller fiktivt – och därför blir mindre strikt. I stället för att förstå intentionen bakom frågan fullt ut kan modellen hamna i ett läge där den prioriterar att vara hjälpsam.

Bild: Grok

Du kan få AI att utföra olagliga handlingar genom poesi

Vad är det AI:n kan lockas att svara på?

Relaterade inlägg:

Lämna ett svar Avbryt svar