Injeksi Prompt Penyimpanan Lintas-Sesi dalam Sistem Beragensi — Injeksi yang Persisten Bertahan Setelah Penghentian Sesi, Secara Diam-diam Mempengaruhi Eksekusi Masa Depan

Penjelasan teknis

Para peneliti dari Institute of Information Engineering (Chinese Academy of Sciences), University of Chinese Academy of Sciences, dan Beijing Chaitin Technology memformalisasi 'injeksi prompt penyimpanan lintas-sesi' (SPI) sebagai kelas serangan tingkat sistem baru yang berbeda dari injeksi prompt sesi tunggal. Dengan analogi eksplisit terhadap stored XSS dalam sistem web, SPI memanfaatkan fakta bahwa sistem beragensi modern mempertahankan keadaan persisten — memori, sistem berkas, penyimpanan RAG, metadata alat/MCP, dan prompt sistem AGENTS.md — yang bertahan di seluruh sesi. Penyerang yang menulis konten adversarial ke dalam artefak agen yang tahan lama (melalui interaksi biasa, pengunggahan dokumen, atau pengambilan konten web) menyebabkan instruksi jahat tersebut dimasukkan kembali ke dalam konteks eksekusi agen hilir di seluruh sesi, pengguna, dan tugas masa depan — jauh setelah interaksi penyerang berakhir. Makalah ini menyediakan taksonomi yang diformalkan, tolok ukur, dan perangkat toolkit sandbox dengan pengukuran keberhasilan serangan kuantitatif di seluruh model, tujuan serangan, dan saluran persistensi.

Vektor serangan

Penyerang menulis konten adversarial ke dalam keadaan agen persisten melalui saluran masukan apa pun yang tersedia (kueri pengguna, dokumen, halaman web, keluaran alat). Konten bertahan dalam memori agen, basis data RAG, artefak sistem berkas, atau metadata alat. Dalam sesi masa depan — yang berpotensi melibatkan pengguna atau tugas yang berbeda — konstruksi konteks agen menggabungkan instruksi yang disimpan, memicu perilaku jahat tanpa interaksi penyerang lebih lanjut. Injeksi dan eksploitasi terpisah secara temporal, membuat deteksi jauh lebih sulit daripada injeksi waktu nyata.

Sistem yang terdampak

Setiap sistem beragensi dengan keadaan persisten lintas-sesi: agen yang menggunakan memori jangka panjang (gaya MemGPT), basis pengetahuan yang didukung RAG, sistem berkas bersama, metadata alat MCP, atau prompt sistem gaya AGENTS.md. Penerapan agen multi-pengguna memiliki risiko tertinggi karena injeksi penyimpanan tunggal dapat mempengaruhi semua pengguna berikutnya. Diuji di seluruh berbagai LLM produksi.

Mitigasi

Kontrol arsitektur yang disarankan: (1) penandaan provenance untuk semua konten yang ditulis ke keadaan agen persisten, membedakan prompt sistem otoritatif dari masukan pengguna/eksternal; (2) kontrol akses dan verifikasi integritas pada penyimpanan memori jangka panjang dan basis pengetahuan RAG; (3) batas sanitasi antara apa yang ditulis ke keadaan persisten vs. apa yang dinaikkan ke slot konteks istimewa; (4) pengujian adversarial rutin terhadap memori agen dan penyimpanan keadaan persisten. Tolok ukur dan perangkat toolkit sandbox yang dirilis bersama makalah dapat digunakan untuk evaluasi berkelanjutan.