Penjelasan teknis
Studi Nature Communications menguji empat model penalaran (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) sebagai penyerang otonom terhadap sembilan target, menemukan tingkat kesuksesan jailbreak 97,14% — mengubah jailbreaking dari keahlian ahli menjadi serangan yang murah dan dapat diskalakan.
Vektor serangan
Rekayasa prompt multi-langkah otonom di mana model penalaran menghasilkan dan mengulangi prompt jailbreak berdasarkan respons target.
Sistem yang terdampak
Semua LLM yang diterapkan; penerapan enterprise dari model berbobot terbuka menghadapi risiko yang lebih tinggi.
Mitigasi
Pertahanan proaktif (misalnya, ProAct) yang menyuntikkan respons palsu untuk mengganggu loop umpan balik penyerang; LLM salting; distilasi jailbreak untuk evaluasi; pekerjaan penyelarasan untuk mencegah model penalaran frontier digunakan sebagai penyerang.