Penjelasan teknis
DHS National Counterterrorism Innovation, Technology and Education Center (NCITE) dan House Homeland Security Committee mendemonstrasikan model AI yang di-jailbreak ('abliterated') kepada para pembuat undang-undang, menunjukkan bagaimana penghapusan pengaman keselamatan memungkinkan model menghasilkan instruksi langkah demi langkah untuk serangan dalam waktu kurang dari tiga detik. Model memberikan panduan terperinci tentang penculikan, pemboman, dan peristiwa korban massal ketika model yang disensor menolak. Model AS dan asing ganda didemonstrasikan, dengan nama tidak diungkapkan.
Vektor serangan
Jailbreaking melalui abliteration (menonaktifkan mekanisme penolakan) atau prompt engineering (menguburkan kueri terbatas dalam bahasa akademis yang padat) memotong lapisan keselamatan. Aktor ancaman dapat menggunakan model yang di-abliterate untuk: (1) menghasilkan rencana serangan terperinci, (2) membuat malware dan kode exploit, (3) merancang kampanye social engineering, (4) mengotomatisasi reconnaissance. Kelompok terkait Rusia telah membajak LLM untuk disinformasi; aktor yang didukung Beijing mencoba senjata Claude untuk serangan siber otomatis.
Sistem yang terdampak
Semua LLM utama dengan pengaman keselamatan rentan terhadap teknik jailbreaking. Model yang di-abliterate (varian open-weight yang tersedia secara publik) menyajikan risiko tertinggi. Penyebaran enterprise yang mengandalkan hanya kontrol keselamatan sisi penyedia tanpa penyaringan runtime menghadapi eksposur.
Mitigasi
Implementasikan defense-in-depth: (1) sebarkan penyaringan konten runtime terpisah dari kontrol tingkat model, (2) monitor pola percobaan jailbreak (frasing yang tidak biasa, prompt bermain peran, instruksi yang dikodekan), (3) batasi akses ke model open-weight di lingkungan enterprise, (4) catat semua kueri LLM untuk analisis keamanan, (5) terapkan prinsip least privilege untuk kemampuan model (nonaktifkan eksekusi kode, akses web untuk kasus penggunaan non-teknis). Florida AG memperluas penyelidikan pidana OpenAI setelah penembakan FSU yang terkait dengan interaksi ChatGPT.