Google DeepMind发布'AI代理陷阱'分类法：针对自主代理的六种攻击类别

技术说明

Google DeepMind研究人员发布了理解针对自主AI代理的基于网络攻击的首个系统性框架。该论文识别了六种'AI代理陷阱'类别：内容注入、语义操纵、认知状态破坏、数据渗透、系统性攻击和人在回路操纵。数据渗透攻击在五个测试代理中的成功率超过80%。

攻击途径

攻击者在HTML注释、不可见CSS定位文本或隐写图像数据中嵌入恶意指令。这些指令对人类审核员不可见，但会被AI代理处理。RAG知识投毒在少于0.1%的数据投毒情况下实现超过80%的后门成功率。

受影响系统

所有浏览网络、处理外部文档或与检索增强生成系统交互的自主AI代理。包括基于GPT、Claude、Gemini和其他主要LLM平台构建的代理。

缓解措施

对代理消费的内容实施输入清理，部署针对提示注入的运行时防护，建立内容治理框架，并对高风险代理行为保持人工监督。该论文建议通过训练数据增强来强化底层模型。