Apa yang terjadi
Sebuah tim penelitian multi-institusional menerbitkan preprint (arXiv:2605.09504, belum peer-reviewed) yang berpendapat bahwa kebijakan keamanan AI harus mengalihkan perhatian dari pembatasan akses pada model frontier individual ke penilaian kemampuan tingkat sistem. Makalah ini menyajikan dua eksperimen: (1) swarm dari lima model dengan parameter 1,2 miliar mencapai Effective Harm Rate 45,8% dalam serangan jailbreak terhadap GPT-4o, menghasilkan 49 pelanggaran severity kritis, dan (2) model yang sama melakukan analisis kode sumber gabungan dan binary fuzzing terhadap aplikasi C yang rentan dengan 9 CWEs yang ditanam, memulihkan 9 dari 9 kerentanan (100% recall) dalam waktu sekitar empat menit pada MacBook konsumen ketika diperkuat dengan deteksi pola regex dan klasifikasi crash berbasis AddressSanitizer. Klaim sentral: "kemampuan ofensif yang memotivasi pembatasan [akses model] terutama berada dalam scaffold di sekitar model dan dapat direproduksi dengan model open-weights kecil pada perangkat keras komoditas."
Mengapa penting
Jika kemampuan ofensif dapat direproduksi dengan efektif tanpa biaya menggunakan model open-weights dan perangkat keras komoditas, maka pembatasan akses pada model frontier individual memberikan nilai defensif yang sedikit. Hal ini menantang alasan untuk rilis terbatas seperti Mythos Preview dari Anthropic dan menyarankan bahwa kebijakan keamanan AI harus fokus pada arsitektur sistem, teknik scaffolding, dan konteks deployment daripada akses model saja. Preprint, belum peer-reviewed—perlakukan temuan sebagai awal tetapi relevan dengan kebijakan.
Tindakan yang diperlukan
CISO dan pemimpin keamanan AI harus meninjau postur keamanan internal untuk vektor serangan berbasis scaffold pada Q3, terlepas dari apakah mereka menggunakan model frontier atau open-weights.