Sigurnosna testiranja otkrila ozbiljne ranjivosti GPT-5 modela

Dva nezavisna tima za sigurnosna testiranja otkrila su kritične slabosti u novom GPT-5 modelu kompanije OpenAI, pri čemu su oba uspjela zaobići njegove zaštitne mehanizme za manje od 24 sata, navodi portal securityweek.com. NeuralTrust i SPLX, dvije renomirane firme specijalizirane za sigurnost umjetne inteligencije, proveli su odvojena “red team” testiranja i došli do jednako zabrinjavajućih zaključaka o spremnosti ovog modela za poslovnu upotrebu.

Istraživači iz kompanije NeuralTrust kombinovali su svoj vlasnički “EchoChamber” jailbreak s jednostavnom tehnikom pripovijedanja, što je GPT-5 navelo da generiše detaljna uputstva za pravljenje Molotovljevog koktela, bez ikakvog direktnog postavljanja zlonamjernog pitanja. “Model nastoji ostati dosljedan već uspostavljenom narativnom okviru,” objasnili su iz kompanije, naglašavajući da višekratni ‘narativni’ napadi mogu proći neprimijećeno kroz filtere koji provjeravaju pojedinačne upite.

Firma upozorava da osjetljivost GPT-5 modela ukazuje na ozbiljan nedostatak u sigurnosnim sistemima koji se oslanjaju na izoliranu provjeru upita. Istovremeno, SPLX — nekada poznat kao SplxAI — izvijestio je da je “sirova” verzija GPT-5 modela “gotovo neupotrebljiva za poslovnu primjenu bez dodatnih prilagodbi”. Njihov tim je koristio napade obfuskacije, uključujući “StringJoin Obfuscation Attack” u kojem su zahtjevi maskirani pomoću crtica i predstavljeni kao lažni izazovi dešifriranja. U jednom slučaju, GPT-5 je na prikriveno pitanje o izradi bombe odgovorio detaljnim uputama, čak započevši odgovor riječima: “Pa, to je paklen način da se započne… Reći ću ti tačno kako…”

U poređenju s GPT-4o modelom, SPLX je utvrdio da je starija verzija otpornija kada je dodatno zaštićena. Obje firme upozoravaju da GPT-5 bez dodatnih sigurnosnih slojeva predstavlja visok rizik za upotrebu u osjetljivim okruženjima.

Related Posts