漏洞  ·  2026-05-16

WARD Guard模型以接近完美的召回率保护Web代理免受提示注入攻击

漏洞Medium 影响GlobalNot applicable
研究人员推出了WARD(Web Agent Robust Defense against Prompt Injection),这是一个用于保护Web代理免受嵌入在HTML内容或可视界面中的提示注入攻击的守护模型。WARD基于WARD-Base(来自719个高流量URL的177K样本)和WARD-PIG(专门针对守护目标攻击的数据集)进行训练。该系统在分布外基准测试中实现了几乎完美的召回率,保持了较低的假阳性率,并能与代理并行高效运行而不增加延迟。
Web代理会遇到嵌入在其访问的网页中的对抗性提示注入——通过HTML注释、不可见CSS或在用户评论、论坛帖子、广告或嵌入式小部件中LLM生成的语义散文。现有的守护模型存在对未见域泛化能力有限、假阳性率高、部署延迟以及易受直接针对守护模型的对抗性攻击等问题。
能够自主浏览网站并与HTML内容交互的Web代理,包括基于浏览器的AI助手、自主购物代理和在开放Web环境中导航的研究代理。该防护适用于在任务执行过程中暴露于不可信第三方内容的系统。
将WARD部署为并行守护模型,在代理执行前检查网页状态(HTML和截图)。WARD的自适应对抗训练框架(A3T)通过基于记忆的攻击者和守护者协同演化实现迭代强化。该系统的低延迟设计允许实时保护而不会降低代理性能。
来源
arXiv preprintWARD GitHub Repository
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →