WARD Guard Model は、プロンプトインジェクション攻撃からWebエージェントを防御する、ほぼ完璧なリコールを備えています

技術的な説明

研究者らは、HTMLコンテンツまたはビジュアルインターフェース内に埋め込まれたプロンプトインジェクション攻撃からWebエージェントを保護するためのガードモデルであるWARD（Web Agent Robust Defense against Prompt Injection）を導入しました。WARDはWARD-Base（719の高トラフィックURLから177Kサンプル）とWARD-PIG（ガード対象攻撃専用データセット）で訓練されています。このシステムは分布外ベンチマークでほぼ完璧なリコールを達成し、低い偽陽性率を維持し、エージェントと並列で効率的に実行でき、追加のレイテンシはありません。

攻撃経路

Webエージェントは、HTMLコメント、非表示CSS、またはユーザーレビュー、フォーラム投稿、広告、埋め込みウィジェット内のLLM生成セマンティック散文を通じて、訪問するWebページに埋め込まれた敵対的プロンプトインジェクションに遭遇します。既存のガードモデルは、未見ドメインへの限定的な汎化、高い偽陽性率、デプロイメントレイテンシ、および進化またはガード自体を対象とする敵対的攻撃への脆弱性に悩まされています。

影響を受けるシステム

ブラウザベースのAIアシスタント、自動ショッピングエージェント、オープンウェブ環境をナビゲートする研究エージェントなど、Webサイトを自律的にブラウズしHTMLコンテンツと対話するWebエージェント。この防御は、タスク実行中に信頼できない第三者のコンテンツにさらされるシステムに適用されます。

緩和策

WARDをエージェント実行前にウェブページの状態（HTMLとスクリーンショット）を検査する並列ガードモデルとしてデプロイします。WARDの適応的敵対的訓練フレームワーク（A3T）は、メモリベースの攻撃者とガード共進化を通じた反復的な強化を可能にします。このシステムの低レイテンシ設計により、エージェントのパフォーマンスを低下させることなく、リアルタイム保護が可能になります。