WARD Guard模型以接近完美的召回率保护Web代理免受提示注入攻击

技术说明

研究人员推出了WARD（Web Agent Robust Defense against Prompt Injection），这是一个用于保护Web代理免受嵌入在HTML内容或可视界面中的提示注入攻击的守护模型。WARD基于WARD-Base（来自719个高流量URL的177K样本）和WARD-PIG（专门针对守护目标攻击的数据集）进行训练。该系统在分布外基准测试中实现了几乎完美的召回率，保持了较低的假阳性率，并能与代理并行高效运行而不增加延迟。

攻击途径

Web代理会遇到嵌入在其访问的网页中的对抗性提示注入——通过HTML注释、不可见CSS或在用户评论、论坛帖子、广告或嵌入式小部件中LLM生成的语义散文。现有的守护模型存在对未见域泛化能力有限、假阳性率高、部署延迟以及易受直接针对守护模型的对抗性攻击等问题。

受影响系统

能够自主浏览网站并与HTML内容交互的Web代理，包括基于浏览器的AI助手、自主购物代理和在开放Web环境中导航的研究代理。该防护适用于在任务执行过程中暴露于不可信第三方内容的系统。

缓解措施

将WARD部署为并行守护模型，在代理执行前检查网页状态（HTML和截图）。WARD的自适应对抗训练框架（A3T）通过基于记忆的攻击者和守护者协同演化实现迭代强化。该系统的低延迟设计允许实时保护而不会降低代理性能。