Apa yang terjadi
Peneliti dari University of Science and Technology of China, National University of Singapore, Singapore Management University, dan Shanghai AI Laboratory menerbitkan preprint pada 27 Mei 2026 (arXiv:2605.28201) yang memformalkan model ancaman 'Sleeper Attack' untuk agen LLM. Diuji pada 1.896 instance di seluruh tujuh LLM (open-source dan closed-source), studi ini menunjukkan bahwa konten adversarial yang disuntikkan ke dalam data yang dikembalikan alat, halaman web, atau konteks MCP dapat bertahan dalam status agen (konteks sesi, memori, keterampilan yang dapat digunakan kembali) di seluruh interaksi multipel dan teraktivasi melalui kueri pengguna yang benign — mencapai tingkat keberhasilan serangan yang lebih tinggi daripada baseline interaksi tunggal bahkan pada agen yang tampak tahan terhadap prompt injection langsung.
Mengapa penting
Postur defensif yang ada untuk agentic AI — termasuk sebagian besar pertahanan prompt-injection — mengasumsikan bahwa konten adversarial harus memicu perilaku berbahaya dalam permintaan pengguna yang sama. Sleeper Attacks membatalkan asumsi ini: instruksi berbahaya yang ditanam dalam memori agen dapat tetap dorman selama berhari-hari atau berminggu-minggu sebelum diaktifkan oleh permintaan benign yang sama sekali tidak terkait, membuat deteksi dan atribusi jauh lebih sulit. Penelitian ini, yang dikerjakan bersama dari Singapura, memiliki relevansi langsung bagi perusahaan yang menerapkan sistem agentic AI yang memory-enabled atau long-running.
Tindakan yang diperlukan
Tinjau apakah agen yang diterapkan memiliki memori persisten atau penyimpanan keterampilan yang dapat digunakan kembali, dan terapkan kontrol yang lebih ketat: batasi penulisan ke memori dari konten eksternal, tambahkan pemeriksaan integritas pada keterampilan yang dimuat, dan implementasikan pemantauan perilaku yang mencari panggilan alat anomali yang berkorelasi di seluruh sesi — bukan hanya dalam permintaan tunggal.