漏洞  ·  2026-04-11

Google DeepMind发布'AI代理陷阱'分类法:针对自主代理的六种攻击类别

漏洞High 影响
Google DeepMind研究人员发布了理解针对自主AI代理的基于网络攻击的首个系统性框架。该论文识别了六种'AI代理陷阱'类别:内容注入、语义操纵、认知状态破坏、数据渗透、系统性攻击和人在回路操纵。数据渗透攻击在五个测试代理中的成功率超过80%。
攻击者在HTML注释、不可见CSS定位文本或隐写图像数据中嵌入恶意指令。这些指令对人类审核员不可见,但会被AI代理处理。RAG知识投毒在少于0.1%的数据投毒情况下实现超过80%的后门成功率。
所有浏览网络、处理外部文档或与检索增强生成系统交互的自主AI代理。包括基于GPT、Claude、Gemini和其他主要LLM平台构建的代理。
对代理消费的内容实施输入清理,部署针对提示注入的运行时防护,建立内容治理框架,并对高风险代理行为保持人工监督。该论文建议通过训练数据增强来强化底层模型。
来源
SSRN — AI Agent Traps (DeepMind Paper)SecurityWeek — Google DeepMind Researchers Map Web Attacks Against AI AgentsCyberSecurityNews — Hackers Hijack AI Agents Through Malicious Web Content
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →