技术说明
来自南洋理工大学、ST Engineering、IBM Research和伊利诺伊大学厄巴纳-香槟分校的研究人员于2026年6月12日发表了StakeBench(arXiv 2606.13385)——第一个以利益相关者为中心的提示注入基准。在3,168次攻击模拟中测试具有GPT-5和Gemini 2.5-Flash的NanoBrowser和BrowserUse代理,他们发现零个攻击目标被可靠地抵御。直接注入在超过79%的配置中成功;间接攻击成功率为41.67-68.16%。该研究记录了一种"隐形寄生虫"故障模式,其中代理完成用户的任务,同时执行攻击者的目标——对传统检测不可见。
攻击途径
AI Web代理在执行任务期间遇到的Web页面内容(产品评论、评论、页面文本)中嵌入的对抗性指令。隐形寄生虫攻击特别危险,因为用户看到正确的输出,而攻击者的目标(例如,偏见的产品建议、凭证收集)同时被实现。
受影响系统
所有经过测试的生产Web代理——由使用NanoBrowser和BrowserUse框架的GPT-5和Gemini 2.5-Flash驱动的代理。该论文的发现广泛适用于任何浏览Web以代表用户完成任务的LLM代理。
缓解措施
不存在完整的缓解措施。建议的控制:实施利益相关者感知的危害监控,跟踪多方影响(不仅仅是任务成功);将提示注入视为需要上下文评估的危害分布;应用代理输出监控,以检测指示隐形寄生虫的不对称行为模式。