MemPoison — Serangan Trojan Tersembunyi yang Menyuntikkan Backdoor Persisten ke Memori Jangka Panjang Agen LLM melalui Dialog Biasa, Melewati Pertahanan Memori Selektif

Penjelasan teknis

Peneliti dari Universitas Tsinghua, Universitas Teknik Informasi PLA, dan institusi afiliasi menerbitkan MemPoison (arXiv:2605.29960, 2026-05-28), serangan memory poisoning novel terhadap agen LLM dengan memori jangka panjang. Berbeda dengan serangan sebelumnya yang mengasumsikan akses penulisan database langsung, MemPoison beroperasi sepenuhnya melalui interaksi dialog black-box biasa. Serangan menggunakan tiga komponen: (1) jembatan relasional semantik yang menggabungkan trigger dan payload berbahaya menjadi kalimat koheren, memastikan keduanya bertahan dari ekstraksi memori selektif agen; (2) penyamaran entitas yang menyamarkan trigger sebagai entitas bernama untuk menahan tahap penulisan ulang memori agen; (3) optimasi embedding gabungan yang mengelompokkan teks yang disuntikkan trigger di dekat embedding benign untuk kerahasiaan sambil mempertahankan pemisahan untuk pengambilan yang andal. Dievaluasi di berbagai domain agen dan arsitektur memori, MemPoison mencapai tingkat kesuksesan serangan hingga 0,95 — secara substansial melampaui metode sebelumnya — sementara pertahanan yang ada (termasuk pendekatan berbasis deteksi dan isolasi) gagal untuk memitigasinya secara andal.

Vektor serangan

Penyerang berinteraksi dengan agen LLM yang ditingkatkan memori melalui antarmuka pengguna normalnya. Pesan dialog yang dirancang yang berisi konstruksi trigger-payload melewati pipeline ingesti memori agen, diekstraksi secara selektif (bertahan dari langkah penyaringan), persisten dalam penyimpanan memori jangka panjang, dan selanjutnya diambil pada pertanyaan masa depan yang cocok — menyebabkan agen menjalankan perilaku yang ditentukan penyerang ketika kondisi trigger terpenuhi. Tidak ada akses istimewa yang diperlukan; serangan dapat diulangi di seluruh sesi.

Sistem yang terdampak

Agen LLM dengan mekanisme memori jangka panjang (sistem gaya MemGPT, agen yang diperkaya RAG dengan memori episodik persisten, agen layanan pelanggan dengan riwayat sesi, agen pengkodean dengan memori proyek). Penerapan produksi OpenClaw, Codex, Claude Code, dan kerangka kerja agen apa pun yang menyimpan riwayat interaksi pengguna secara struktural terbuka jika penyaringan memori dapat dilewati.

Mitigasi

Tidak ada patch langsung; peneliti mengevaluasi berbagai strategi pertahanan dan menemukan keterbatasan fundamental di semua. Kontrol interim yang direkomendasikan: (1) Perlakukan penyimpanan memori jangka panjang agen sebagai input adversarial daripada status terpercaya — terapkan deteksi anomali pada entri memori yang diekstraksi, khususnya mencari asosiasi entitas bernama yang tidak biasa. (2) Batasi persistensi memori untuk agen yang tidak dipercaya atau menghadap publik. (3) Perlukan tinjauan manusia sebelum entri memori yang berisi instruksi pengubah tugas dikomitkan ke penyimpanan persisten. (4) Evaluasi agen yang ditingkatkan memori di bawah input adversarial kelas MemPoison sebelum penerapan produksi.