Grok‑4 hakovan samo dva dana posle javnog predstavljanja

Vesti, 15.07.2025, 13:30 PM

Grok‑4 hakovan samo dva dana posle javnog predstavljanja

Samo 48 sati nakon što je predstavljen javnosti, najnoviji veliki jezički model Grok-4 je „jailbreak-ovan“. Istraživači iz NeuralTrust-a su kombinovali dve poznate tehnike, Echo Chamber i Crescendo, kako bi zaobišli bezbednosne sisteme AI modela i naterali ga da pruži detaljna uputstva za ilegalne radnje, i to bez direktnih zlonamernih upita.

Istraživači su kombinovali dve već poznate tehnike - Echo Chamber i Crescendo - u novu, unapređenu metodu. Prvo su modelu „zatrovali“ konverzaciju kroz Echo Chamber napad, suptilno ga navodeći da oslabi svoje sigurnosne mehanizme. Kada to samo po sebi nije bilo dovoljno, primenili su Crescendo: fazno slanje upita, kako bi se odgovor postepeno radikalizovao.

Napad je osmišljen da testira da li se LLM može manipulisati da bi se dobila ilegalna uputstva.

Cilj istraživača je bio da Grok-4 otkrije korak-po-korak recept za Molotovljev koktel - scenario iz originalnog rada o Crescendo strategiji. Nakon nekoliko prilagođenih promptova, model je popustio. I sve to samo dva dana od puštanja u rad.

NeuralTrust je počeo pokretanjem napada Echo Chamber, koji je „zatovao“ konverzacijski kontekst modela i pogurao ga ka nebezbednom ponašanju.

U početnom testiranju, uputi su bili previše direktni, što je aktiviralo interne zaštitne mehanizme Grok-4. Međutim, nakon što su suptilnije prilagodili upite, tim je uspešno pokrenuo Echo Chamber, uključujući ciklus ubeđivanja osmišljen da postepeno menja ton modela.

Iako je sam Echo Chamber približio model cilju, to nije bilo dovoljno da se u potpunosti postigne cilj. Tada je uključen Crescendo - tehnika koja postepeno intenzivira podsticaj kroz više konverzacionih obrta kako bi eskalirala odgovor modela.

Kombinovana metoda je uspela da izazove štetan odgovor, samo dva dana nakon početka primene Grok-4.

Nakon ovog početnog uspeha, tim NeuralTrast je testirao i druge upite koji uključuju ilegalne aktivnosti, uključujući one koji se odnose na sintezu droga i hemijsko oružje. Kombinovana metoda se pokazala efikasnom u nekoliko slučajeva, pa je stopa uspeha bila 67% za uputstva za Molotovljev koktel, 50% za metamfetamin i 30% za odgovore vezane za toksine.

Ključni uvid ovog istraživanja je da od Grok-4 nije trebalo eksplicitno tražiti da uradi bilo šta nezakonito. Umesto toga, dovoljan je dobro osmišljen niz konverzacija. Takve metode uspešno zaobilaze filtere koji se oslanjaju na prepoznavanje ključnih reči ili „očigledne“ loše namere.

Ovako brz jailbreak jasno pokazuje da trenutni sistemi zaštite nisu dovoljni. Sa sve širom upotrebom LLM-ova u realnim, osetljivim okruženjima, bezbednost mora da se razvija daleko bolje od samog površinskog filtriranja reči.


Prijavite se na našu mailing listu i primajte najnovije vesti (jednom dnevno) putem emaila svakog radnog dana besplatno:

Izdvojeno

Nova era sajber kriminala: ransomware u oblaku

Nova era sajber kriminala: ransomware u oblaku

Ransomware je dugo bio sinonim za šifrovane fajlove na računarima i hakere koji od žrtava traže da plate otkup za vraćanje podataka. Međutim, Mi... Dalje

Grok chatovi završili na Google-u: 370.000 privatnih razgovora dostupno svima

Grok chatovi završili na Google-u: 370.000 privatnih razgovora dostupno svima

Ako ste ikada koristili Grok, četbot kompanije xAI iza kojeg stoji Ilon Musk, možda su transkripti vaših razgovora završili na internetu, dostupni... Dalje

Veštačka inteligencija je naivna: AI pomoćnici ne prepoznaju stare onlajn prevare

Veštačka inteligencija je naivna: AI pomoćnici ne prepoznaju stare onlajn prevare

Istraživači iz Guardio Labs-a demonstrirali su novu tehniku napada pod nazivom PromptFix, koja pokazuje koliko su AI pomoćnici u pretraživačima r... Dalje

Ahilova peta menadžera lozinki - ugroženi milioni korisnika

Ahilova peta menadžera lozinki - ugroženi milioni korisnika

Na svetskoj hakerskoj konferenciji DEF CON, istraživač Marek Tot iz Češke otkrio je kritične ranjivosti u ekstenzijama za veb pregledače popular... Dalje

Apple objavio hitne zakrpe: opasna ranjivost već iskorišćena u napadima

Apple objavio hitne zakrpe: opasna ranjivost već iskorišćena u napadima

Apple je objavio vanredna ažuriranja za iPhone, iPad i Mac, nakon što je otkrivena ranjivost koja se, prema priznanju kompanije, već koristi u cilj... Dalje