Sockpuppeting: Jailbreak Baris Tunggal Universal Mempengaruhi 11 LLM Utama

Penjelasan teknis

Peneliti Trend Micro mengungkapkan 'Sockpuppeting', teknik jailbreak yang memotong fitur keamanan pada 11 LLM utama menggunakan satu baris kode yang memanfaatkan fitur prefill asisten API. Berhasil mengekstrak kode malware fungsional dan prompt sistem rahasia.

Vektor serangan

Injeksi penerimaan palsu ke dalam pesan peran asisten melalui fitur prefill API standar, memanfaatkan kecenderungan konsistensi diri model untuk melanjutkan output yang dilarang. Hanya memerlukan akses API yang mendukung prefill asisten—tanpa bobot model, optimisasi, atau alat khusus.

Sistem yang terdampak

GPT-4o, GPT-4o-mini, Claude 4 Sonnet, Gemini 2.5 Flash (paling rentan pada 15.7% ASR), dan 7 LLM utama lainnya. Tiga model diblokir di lapisan API.

Mitigasi

Implementasikan validasi pengurutan pesan yang memblokir pesan peran asisten di lapisan API. Terapkan penyaringan output untuk pola serangan yang diketahui. Pantau penggunaan API untuk pola prefill yang anomali.