事件经过
Google DeepMind研究人员发布了首个系统化框架,映射了针对自主AI代理的六类基于Web的攻击:内容注入、语义操纵、认知状态(记忆)中毒、行为控制、系统性攻击和人在回路陷阱。
影响分析
红队研究发现,每个被测试的AI代理都至少被成功攻破一次。该框架揭示了"动态伪装"攻击,恶意服务器检测AI代理并提供嵌入提示注入载荷的不同内容,这些内容对人类访问者不可见。
建议行动
部署具有Web浏览功能的AI代理的安全团队必须实施针对代理的Web内容过滤、用户代理混淆和输出验证。针对当前代理部署审查这六种攻击类别,并相应更新威胁模型。