Apa yang terjadi
Paper oleh Ye, Cui dan Hadfield-Menell yang diterima di ICML 2026 (arXiv:2603.12277), dipublikasikan ke web sekitar 24–25 Juni 2026, membuktikan bahwa LLM saat ini mengidentifikasi peran pesan terutama berdasarkan gaya penulisan dan nada daripada tag peran formal (system/user/tool). Penyerang dapat menanamkan konten dalam output tool atau data eksternal yang meniru tanda tangan stilistik dari prompt sistem atau giliran pengguna, menyebabkan model mengeksekusinya sebagai instruksi terpercaya. Paper memperkenalkan 'CoT Forgery' — menyuntikkan penalaran rantai-pemikiran palsu yang disalahartikan model sebagai pemikiran sebelumnya — dan menunjukkan bahwa destyling (mengubah gaya penulisan konten yang disuntikkan) mengurangi keberhasilan serangan dari 61% menjadi ~10%, mengkonfirmasi gaya adalah sinyal dominan.
Mengapa penting
Ini adalah kelemahan struktural dalam cara LLM mempersepsikan peran, bukan celah prompt-engineering yang dapat diperbaiki dengan penulisan prompt sistem yang lebih baik. Agen LLM yang diterapkan apa pun yang memproses data eksternal (halaman web, email, dokumen, output tool) berpotensi rentan. PoC menunjukkan tingkat keberhasilan baseline tinggi (61%) pada model frontier dan memberikan penjelasan mekanis untuk mengapa mitigasi sebelumnya gagal. CoT Forgery adalah vektor serangan novel terhadap model rantai-reasoning (o1, Claude 3.x, Gemini 2.x) di mana pemikiran batin yang difabrikasi dapat mengarahkan tindakan otonom.
Vektor serangan
Konten berbahaya yang ditanamkan dalam output tool, halaman yang diambil web, email, atau dokumen diformat secara stilistik untuk meniru penanda peran system/user, menyebabkan agen LLM mengeksekusi instruksi yang disuntikkan; varian CoT Forgery menyuntikkan jejak reasoning palsu
Sistem yang terdampak
Semua penerapan LLM utama yang memproses context window peran campuran; terutama sistem agentic menggunakan chain-of-thought reasoning (GPT-4o, Claude, Gemini, dll.)
Mitigasi
Terapkan destyling ke output tool/data eksternal sebelum injeksi ke context window (mengurangi tingkat keberhasilan serangan dari 61% menjadi ~10%). Perlakukan semua konten yang diambil sebagai adversarial. Sandbox eksekusi agen. Pantau output untuk pola instruction-following yang anomali. Tidak ada patch level model yang tersedia saat ini. Paper: https://arxiv.org/abs/2603.12277