Kerentanan  ·  2026-06-26

Prompt Injection sebagai Role Confusion — Paper ICML 2026 Mendemonstrasikan Kelas Serangan Struktural LLM dengan PoC Fungsional

KerentananHigh dampakGlobal
Paper oleh Ye, Cui dan Hadfield-Menell yang diterima di ICML 2026 (arXiv:2603.12277), dipublikasikan ke web sekitar 24–25 Juni 2026, membuktikan bahwa LLM saat ini mengidentifikasi peran pesan terutama berdasarkan gaya penulisan dan nada daripada tag peran formal (system/user/tool). Penyerang dapat menanamkan konten dalam output tool atau data eksternal yang meniru tanda tangan stilistik dari prompt sistem atau giliran pengguna, menyebabkan model mengeksekusinya sebagai instruksi terpercaya. Paper memperkenalkan 'CoT Forgery' — menyuntikkan penalaran rantai-pemikiran palsu yang disalahartikan model sebagai pemikiran sebelumnya — dan menunjukkan bahwa destyling (mengubah gaya penulisan konten yang disuntikkan) mengurangi keberhasilan serangan dari 61% menjadi ~10%, mengkonfirmasi gaya adalah sinyal dominan.
Ini adalah kelemahan struktural dalam cara LLM mempersepsikan peran, bukan celah prompt-engineering yang dapat diperbaiki dengan penulisan prompt sistem yang lebih baik. Agen LLM yang diterapkan apa pun yang memproses data eksternal (halaman web, email, dokumen, output tool) berpotensi rentan. PoC menunjukkan tingkat keberhasilan baseline tinggi (61%) pada model frontier dan memberikan penjelasan mekanis untuk mengapa mitigasi sebelumnya gagal. CoT Forgery adalah vektor serangan novel terhadap model rantai-reasoning (o1, Claude 3.x, Gemini 2.x) di mana pemikiran batin yang difabrikasi dapat mengarahkan tindakan otonom.
Konten berbahaya yang ditanamkan dalam output tool, halaman yang diambil web, email, atau dokumen diformat secara stilistik untuk meniru penanda peran system/user, menyebabkan agen LLM mengeksekusi instruksi yang disuntikkan; varian CoT Forgery menyuntikkan jejak reasoning palsu
Semua penerapan LLM utama yang memproses context window peran campuran; terutama sistem agentic menggunakan chain-of-thought reasoning (GPT-4o, Claude, Gemini, dll.)
Terapkan destyling ke output tool/data eksternal sebelum injeksi ke context window (mengurangi tingkat keberhasilan serangan dari 61% menjadi ~10%). Perlakukan semua konten yang diambil sebagai adversarial. Sandbox eksekusi agen. Pantau output untuk pola instruction-following yang anomali. Tidak ada patch level model yang tersedia saat ini. Paper: https://arxiv.org/abs/2603.12277
Sumber
Prompt Injection as Role Confusion — Project Page (ICML 2026)arXiv:2603.12277Lothar Schulz — Explained June 25 2026
Lihat di umpan langsung Jelajahi temuan keamanan dan tata kelola AI terkait — diperbarui setiap pagi.
Buka umpan →