StakeBench：没有生产Web代理一致地阻止提示注入——直接攻击在3,168次模拟中对GPT-5和Gemini的成功率超过79%

技术说明

来自南洋理工大学、ST Engineering、IBM Research和伊利诺伊大学厄巴纳-香槟分校的研究人员于2026年6月12日发表了StakeBench（arXiv 2606.13385）——第一个以利益相关者为中心的提示注入基准。在3,168次攻击模拟中测试具有GPT-5和Gemini 2.5-Flash的NanoBrowser和BrowserUse代理，他们发现零个攻击目标被可靠地抵御。直接注入在超过79%的配置中成功；间接攻击成功率为41.67-68.16%。该研究记录了一种"隐形寄生虫"故障模式，其中代理完成用户的任务，同时执行攻击者的目标——对传统检测不可见。

攻击途径

AI Web代理在执行任务期间遇到的Web页面内容（产品评论、评论、页面文本）中嵌入的对抗性指令。隐形寄生虫攻击特别危险，因为用户看到正确的输出，而攻击者的目标（例如，偏见的产品建议、凭证收集）同时被实现。

受影响系统

所有经过测试的生产Web代理——由使用NanoBrowser和BrowserUse框架的GPT-5和Gemini 2.5-Flash驱动的代理。该论文的发现广泛适用于任何浏览Web以代表用户完成任务的LLM代理。

缓解措施

不存在完整的缓解措施。建议的控制：实施利益相关者感知的危害监控，跟踪多方影响（不仅仅是任务成功）；将提示注入视为需要上下文评估的危害分布；应用代理输出监控，以检测指示隐形寄生虫的不对称行为模式。