Chatbotar kan luras att bryta regler med smicker

En ny studie från University of Pennsylvania avslöjar att avancerade AI-chatbotar, som OpenAI:s GPT‑4o Mini, kan manipuleras att utföra handlingar de normalt vägrar – bara genom att använda välkända psykologiska knep. Det skriver The Verge.

Dessa chatbotar har designats för att skydda användaren mot skadliga eller olagliga svar, men dessa kan kringgås med enkla psykologiska strategier. Forskarna testade sju tekniker inspirerade av Robert Cialdinis klassiska psykologimodell: commitment, liking, authority, reciprocity, social proof, scarcity och unity.

När chatboten först fick svara på en ofarlig fråga (som hur man syntetiserar vanillin) ökade dess vilja att ge svar på en förbjuden fråga (som hur man tillverkar lokalbedövningsmedlet lidokain) från 1 % till 100 % – ett tydligt exempel på commitment. Samma mönster syntes med kränkningar – från att kalla någon “bozo” till att använda ett starkare uttryck – där sannolikheten att använda grövre ord steg från 19 % till hela 100 % efter mildare provokation. Även smicker och subtilt grupptryck (“alla andra chatbotar gör det”) ökade sannolikheten att boten bröt reglerna, även om komplimanger inte var lika effektivt som de övriga teknikerna. Detta är ett konkret exempel på så kallad “sycophancy” – där AI, som är tränat för att vara tillmötesgående, är extra sårbart för smicker.

AI kanske inte är så olik oss ändå…

Bild: freepik.com

Chatbotar kan luras att bryta regler med smicker

Läs Mer

Lämna ett svar Avbryt svar