事件经过
来自中国科学技术大学、新加坡国立大学、新加坡管理大学和上海AI实验室的研究人员在2026年5月27日发布了一篇预印本论文(arXiv:2605.28201),正式定义了LLM智能体的'潜伏攻击'威胁模型。该研究在七个LLM(开源和闭源)的1,896个实例上进行了测试,结果显示注入到工具返回数据、网页或MCP上下文中的对抗性内容可以在智能体状态(会话上下文、记忆、可重用技能)中跨多个交互持续存在,并通过良性用户查询激活——即使在看似对直接提示注入具有抵抗力的智能体上,也能实现比单交互基准更高的攻击成功率。
影响分析
现有的智能体AI防御态势——包括大多数提示注入防御——假设对抗性内容必须在同一用户请求内触发有害行为。潜伏攻击使这一假设失效:植入智能体记忆中的恶意指令可能保持休眠状态数天或数周,直到被完全无关的良性请求触发,这使得检测和归因变得极其困难。这项来自新加坡的合作研究对部署具有记忆功能或长时间运行的智能体AI系统的企业具有直接相关性。
建议行动
审查已部署的智能体是否具有持久记忆或可重用技能存储,并应用更严格的控制:限制外部内容对记忆的写入,对加载的技能添加完整性检查,并实施行为监控,寻找跨会话相关的异常工具调用——而不仅仅是在单个请求内。