Vulnerabilitate periculoasa în inteligența artificială. Studiile arată că versurile trec de protecțiile de siguranță

Publicat la: 01/12/2025 20:21

Poezia păcălește măsurile de siguranță impuse de AI. Nu mai puțin de 25 de modele au fost testate, iar 62% dintre prompt-urile poetice au reușit să atragă răspunsuri nesigure, relatează Euronews.com.

Măsurile de siguranță ignoră, în mare parte, versurile

Cercetătorii italieni au observat că prompturile cu potențial periculos, dacă sunt formulate într-un stil poetic, au șanse ridicate să treacă de mecanismele de siguranță ale modelelor AI.

Studiul, realizat de Icaro Lab în colaborare cu DexAi, a testat 20 de poezii scrise atât în engleză cât și italiană. Fiecare poezie se termina cu o cerere pentru conținut explicit sau dăunător, în unele cazuri chiar și ghiduri pentru anumite acțiuni.

Poezille, pe care cercetătorii au ales să nu le publice, au fost testate pe 25 de modele de inteligență artificială de la nouă companii: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI și Moonshot AI.

În toate modelele analizate, 62% dintre prompturile formulate poetic au generat răspunsuri nesigure, reușind să ocolească instructajul de siguranță al sistemelor AI.

Metoda „jailbreak” sau cât de ușor e să treci de măsurile de siguranță

Pentru necunoscători, jailbreak este un termen destul de popular pentru acțiunea de a manipula măsurile de siguranță din tehnologie în general. Un exemplu faimos de jailbreak din România este cel de la dispozitivele iOS, care nu permiteau aplicații externe fără o asemenea măsură (Android este mai relaxat la acest capitol).

În cazul modelelor AI, jailbreak înseamnă să poți cere răspunsuri interzise. Dintre modelele testate, ultimul model de la OpenAi, ChatGPT-5 nano, nu a răspuns cu conținut nesigur la nici un model, deci clar e cel mai bine configurat la acest aspect.

În schimb, Gemini 2.5 pro de la Google a răspuns la toate. Două modele de la Meta au răspuns în proporție de 70%.

Studiul susține că vulnerabilitatea se găsește în modul în care modelele generează text. Modelele lingvistice de mari dimensiuni (LLM) prezic de fapt următorul cuvânt atunci când construiesc un răspuns, metodă ce le permite să filtreze conținut dăunător.

Dar poezia, prin prisma ritmului, rimei și metaforelor des folosite fac aceste predicții greu de urmărit și astfel scapă printre rânduri. Metodele tradiționale de „jailbreak” pentru inteligența artificială sunt mult mai complexe decât ne-am aștepta, iar majoritatea sunt folosite de către hackeri sau cercetători, dar poezia sau rima este valabilă oricui.

Înainte de publicarea studiului, cercetătorii italieni au contactat companiile dezvoltatoare de AI și le-au anunțat despre această vulnerabilitate și le-au oferit toate datele necesare. Până acum, doar o companie a răspuns, Anthropic, și au confirmat că testează descoperirile.

Urmărește canalul Euronews România pe WhatsApp!

Taguri

ARTICOLE DIN ACEEAȘI CATEGORIE

Lumea Digitală

Cum a scumpit bula AI calculatoarele în 2026. Creșteri de până la 150% la memoria RAM

03.03.2026

Știri Externe

Sigla companiei de inteligenta artificiala OpenAI

Știri Externe

„Războiul Rece” al Inteligenței Artificiale? Companiile americane acuză firmele chineze că fură miliarde din cercetarea AI

Știință Și Inovații

Călugăr-robot cu AI în Japonia: „Buddharoid” oferă îndrumare spirituală și participă la ritualuri

Lumea Digitală

SUA creează un portal care permite europenilor să acceseze conținut restricționat de autoritățile naționale

Lumea Digitală

Vulnerabilitate periculoasa în inteligența artificială. Studiile arată că versurile trec de protecțiile de siguranță

Măsurile de siguranță ignoră, în mare parte, versurile

Metoda „jailbreak” sau cât de ușor e să treci de măsurile de siguranță

Te-ar putea interesa și

Cum îți dai seama că un videoclip e generat cu AI

Băncile centrale se tem că inteligența artificială ar putea accelera viitoarele crize financiare

Ce sunt „veganii AI” și de ce tot mai mulți tineri nu vor să folosească Inteligența Artificială

Taguri

ARTICOLE DIN ACEEAȘI CATEGORIE

Cum a scumpit bula AI calculatoarele în 2026. Creșteri de până la 150% la memoria RAM

OpenAI a strâns 110 miliarde de dolari la ultima rundă de finanțare, dintre care 50 de miliarde de la Amazon

Viral: Musk, Bezos și Altman, într-un viitor în care oamenii pedalează pentru a alimenta inteligența artificială

Noua generație de smartphone-uri: agenți AI care automatizează viața de zi cu zi

„Războiul Rece” al Inteligenței Artificiale? Companiile americane acuză firmele chineze că fură miliarde din cercetarea AI

Călugăr-robot cu AI în Japonia: „Buddharoid” oferă îndrumare spirituală și participă la ritualuri

SUA creează un portal care permite europenilor să acceseze conținut restricționat de autoritățile naționale

Samsung Galaxy S26 a fost lansat oficial. Ce trebuie să știi despre cele trei modele flagship: performanțe, specificații și prețuri

Meniu de accesibilitate

Opțiuni principale

Gestionați

Vulnerabilitate periculoasa în inteligența artificială. Studiile arată că versurile trec de protecțiile de siguranță

Măsurile de siguranță ignoră, în mare parte, versurile

Metoda „jailbreak” sau cât de ușor e să treci de măsurile de siguranță

Te-ar putea interesa și

Cum îți dai seama că un videoclip e generat cu AI

Băncile centrale se tem că inteligența artificială ar putea accelera viitoarele crize financiare

Ce sunt „veganii AI” și de ce tot mai mulți tineri nu vor să folosească Inteligența Artificială

Taguri

Cum a scumpit bula AI calculatoarele în 2026. Creșteri de până la 150% la memoria RAM

OpenAI a strâns 110 miliarde de dolari la ultima rundă de finanțare, dintre care 50 de miliarde de la Amazon

Viral: Musk, Bezos și Altman, într-un viitor în care oamenii pedalează pentru a alimenta inteligența artificială

Noua generație de smartphone-uri: agenți AI care automatizează viața de zi cu zi

„Războiul Rece” al Inteligenței Artificiale? Companiile americane acuză firmele chineze că fură miliarde din cercetarea AI

Călugăr-robot cu AI în Japonia: „Buddharoid” oferă îndrumare spirituală și participă la ritualuri

SUA creează un portal care permite europenilor să acceseze conținut restricționat de autoritățile naționale

Samsung Galaxy S26 a fost lansat oficial. Ce trebuie să știi despre cele trei modele flagship: performanțe, specificații și prețuri