Model Penalaran Besar Mencapai Tingkat Kesuksesan Jailbreak 97% sebagai Penyerang Otonom

Penjelasan teknis

Studi Nature Communications menguji empat model penalaran (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) sebagai penyerang otonom terhadap sembilan target, menemukan tingkat kesuksesan jailbreak 97,14% — mengubah jailbreaking dari keahlian ahli menjadi serangan yang murah dan dapat diskalakan.

Vektor serangan

Rekayasa prompt multi-langkah otonom di mana model penalaran menghasilkan dan mengulangi prompt jailbreak berdasarkan respons target.

Sistem yang terdampak

Semua LLM yang diterapkan; penerapan enterprise dari model berbobot terbuka menghadapi risiko yang lebih tinggi.

Mitigasi

Pertahanan proaktif (misalnya, ProAct) yang menyuntikkan respons palsu untuk mengganggu loop umpan balik penyerang; LLM salting; distilasi jailbreak untuk evaluasi; pekerjaan penyelarasan untuk mencegah model penalaran frontier digunakan sebagai penyerang.