新加坡政府AI代理沙盒：间接提示注入实现RCE被确认为顶级生产代理攻击向量

技术说明

新加坡CSA、GovTech、IMDA和Google联合开展的AI Agents Sandbox——一项对真实公共部门工作流程中计算机使用代理进行的为期四个月的实证研究，发布于2026年5月20日——确定间接提示注入为最突出的网络安全风险，明确指出其具有触发远程代码执行(RCE)的能力。该发现来自于在政府数字服务中对自动化QA、AI安全测试和社会援助工作流程中的计算机使用代理进行测试。沙盒记录显示，与网页内容、文档或外部系统输出交互的代理可能被操纵执行非预期操作——包括执行任意代码——通过嵌入在代理处理的内容中的恶意载荷，而非直接用户指令。

攻击途径

通过环境内容的间接提示注入：恶意行为者在网页、文档、API响应或代理检索和处理的任何外部内容中嵌入注入载荷。代理将检索到的内容视为可信上下文，遵循嵌入的指令。在具有shell命令、代码执行或文件系统操作访问权限的计算机使用代理中，此路径可以在没有任何直接用户交互的情况下实现完整的RCE。

受影响系统

所有处理外部内容的代理AI部署（网页浏览代理、文档处理代理、邮件代理、基于RAG的代理、计算机使用代理）。特别高风险：具有工具调用能力的代理，包括shell执行、代码解释器、文件写入访问或具有环境凭证的外部API调用。

缓解措施

架构缓解措施：(1) 严格分离指令内容（来自系统提示和可信用户输入）与检索/环境内容——将所有外部内容视为不可信数据，而非指令。(2) 实施具有最小必要权限的工具调用允许列表；绝不向外部内容检索工具授予环境凭证访问权限。(3) 在代理推理触发任何工具调用执行之前部署输出验证层。(4) 记录所有带有关联ID的工具调用，并标记检索内容中的异常指令模式。(5) 在生产发布前使用间接提示注入测试套件测试所有代理部署——将此作为强制安全门禁，而非可选的QA步骤。