MemPoison — 隐秘木马攻击通过普通对话将持久后门注入LLM代理长期记忆，绕过选择性记忆防御

技术说明

来自清华大学、解放军信息工程大学和附属机构的研究人员发表了MemPoison (arXiv:2605.29960, 2026-05-28)，这是针对具有长期记忆的LLM代理的新颖记忆中毒攻击。与以前假设直接数据库写入访问的攻击不同，MemPoison完全通过普通黑盒对话交互运作。该攻击使用三个组件：(1)语义关系桥接，将触发和恶意有效负载组合到一个连贯的句子中，确保两者都在代理的选择性记忆提取中幸存；(2)实体伪装，将触发器伪装成命名实体以抵抗代理的记忆重写阶段；(3)联合嵌入优化，将触发器注入文本聚类在良性嵌入附近以实现隐秘，同时保持分离以实现可靠检索。在多个代理域和记忆架构中评估，MemPoison达到高达0.95的攻击成功率 — 实质上优于先前的方法 — 而现有防御（包括基于检测和基于隔离的方法）未能可靠地缓解它。

攻击途径

对手通过其正常用户界面与记忆增强型LLM代理交互。包含触发器-有效负载构造的精心设计对话消息通过代理的记忆摄取管道，被选择性提取（在过滤步骤中幸存），在长期记忆存储中持久化，并在匹配的未来查询上随后被检索 — 导致代理在触发条件满足时执行攻击者指定的行为。不需要特权访问；该攻击在会话之间是可重复的。

受影响系统

具有长期记忆机制的LLM代理(MemGPT风格的系统、带有持久情景记忆的RAG增强代理、具有会话历史的客户服务代理、具有项目记忆的编码代理)。OpenClaw、Codex、Claude Code和任何存储用户交互历史的代理框架的生产部署在记忆过滤可被绕过时存在结构性风险敞口。

缓解措施

无直接补丁；研究人员评估了多种防御策略，发现所有策略都存在根本性局限。建议的临时控制：(1)将代理长期记忆存储视为对抗性输入而非受信任状态 — 对提取的记忆条目应用异常检测，特别是寻找异常具体的命名实体关联。(2)限制不受信任或公开代理的记忆持久性。(3)在包含任务修改指令的记忆条目提交到持久存储之前，要求人工审查。(4)在生产部署前，在MemPoison类对抗性输入下评估记忆增强代理。