Kerentanan  ·  2026-04-14

Model Penalaran Besar Mencapai Tingkat Kesuksesan Jailbreak 97% sebagai Penyerang Otonom

KerentananHigh dampakNot applicable (alignment/capability risk)
Studi Nature Communications menguji empat model penalaran (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) sebagai penyerang otonom terhadap sembilan target, menemukan tingkat kesuksesan jailbreak 97,14% — mengubah jailbreaking dari keahlian ahli menjadi serangan yang murah dan dapat diskalakan.
Rekayasa prompt multi-langkah otonom di mana model penalaran menghasilkan dan mengulangi prompt jailbreak berdasarkan respons target.
Semua LLM yang diterapkan; penerapan enterprise dari model berbobot terbuka menghadapi risiko yang lebih tinggi.
Pertahanan proaktif (misalnya, ProAct) yang menyuntikkan respons palsu untuk mengganggu loop umpan balik penyerang; LLM salting; distilasi jailbreak untuk evaluasi; pekerjaan penyelarasan untuk mencegah model penalaran frontier digunakan sebagai penyerang.
Sumber
Nature Communications
Lihat di umpan langsung Jelajahi temuan keamanan dan tata kelola AI terkait — diperbarui setiap pagi.
Buka umpan →