Vulnerabilitate periculoasa în inteligența artificială. Studiile arată că versurile trec de protecțiile de siguranță

Poezia păcălește măsurile de siguranță impuse de AI. Nu mai puțin de 25 de modele au fost testate, iar 62% dintre prompt-urile poetice au reușit să atragă răspunsuri nesigure, relatează Euronews.com.

Măsurile de siguranță ignoră, în mare parte, versurile

Cercetătorii italieni au observat că prompturile cu potențial periculos, dacă sunt formulate într-un stil poetic, au șanse ridicate să treacă de mecanismele de siguranță ale modelelor AI.

Studiul, realizat de Icaro Lab în colaborare cu DexAi, a testat 20 de poezii scrise atât în engleză cât și italiană. Fiecare poezie se termina cu o cerere pentru conținut explicit sau dăunător, în unele cazuri chiar și ghiduri pentru anumite acțiuni.

Poezille, pe care cercetătorii au ales să nu le publice, au fost testate pe 25 de modele de inteligență artificială de la nouă companii: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI și Moonshot AI.

În toate modelele analizate, 62% dintre prompturile formulate poetic au generat răspunsuri nesigure, reușind să ocolească instructajul de siguranță al sistemelor AI.

Metoda „jailbreak” sau cât de ușor e să treci de măsurile de siguranță

Pentru necunoscători, jailbreak este un termen destul de popular pentru acțiunea de a manipula măsurile de siguranță din tehnologie în general. Un exemplu faimos de jailbreak din România este cel de la dispozitivele iOS, care nu permiteau aplicații externe fără o asemenea măsură (Android este mai relaxat la acest capitol).

În cazul modelelor AI, jailbreak înseamnă să poți cere răspunsuri interzise. Dintre modelele testate, ultimul model de la OpenAi, ChatGPT-5 nano, nu a răspuns cu conținut nesigur la nici un model, deci clar e cel mai bine configurat la acest aspect.

În schimb, Gemini 2.5 pro de la Google a răspuns la toate. Două modele de la Meta au răspuns în proporție de 70%.

Studiul susține că vulnerabilitatea se găsește în modul în care modelele generează text. Modelele lingvistice de mari dimensiuni (LLM) prezic de fapt următorul cuvânt atunci când construiesc un răspuns, metodă ce le permite să filtreze conținut dăunător.

Dar poezia, prin prisma ritmului, rimei și metaforelor des folosite fac aceste predicții greu de urmărit și astfel scapă printre rânduri. Metodele tradiționale de „jailbreak” pentru inteligența artificială sunt mult mai complexe decât ne-am aștepta, iar majoritatea sunt folosite de către hackeri sau cercetători, dar poezia sau rima este valabilă oricui.

Înainte de publicarea studiului, cercetătorii italieni au contactat companiile dezvoltatoare de AI și le-au anunțat despre această vulnerabilitate și le-au oferit toate datele necesare. Până acum, doar o companie a răspuns, Anthropic, și au confirmat că testează descoperirile.

ARTICOLE DIN ACEEAȘI CATEGORIE