微软人工智能红队更新代理人工智能故障模式分类——来自12个月生产红队的7种新模式

事件经过

微软人工智能红队于6月4日发布了代理人工智能系统故障模式的更新分类法,从一年的针对生产部署(包括Microsoft Security Copilot和MCP生态系统)的红队交互中添加了七个新类别。新的类别包括:代理供应链妥协、目标劫持、代理间信任升级、计算机使用代理视觉攻击、会话上下文污染、MCP/插件滥用和能力/架构披露。该文章描述了一个开源代理框架(OpenClaw)如何迅速积累数千个部署,同时包含336个确认的恶意插件——说明代理生态系统如何能够比安全审查更快地扩展。

影响分析

与2025年第一版(前瞻性的)不同,此次更新基于生产中的确认漏洞链:零点击数据渗漏和横向移动仅从外部来源输入就被记录,超出初始代理部署之外没有用户交互。人类在环路绕过被确定为最被利用的故障模式,直接挑战批准提示提供有意义安全性的假设。微软建议代理SBOM生成、按任务身份验证和按工具调用最小权限范围。

建议行动

将七种新故障模式映射到您的已部署代理架构;特别审计人类批准提示是否可以绕过,以及MCP/插件注册表是否已审查是否存在恶意条目。