Google DeepMind が「AI Agent Traps」タクソノミーを公開：自律型エージェントに対する6つの攻撃カテゴリ

技術的な説明

Google DeepMind の研究者たちは、自律型 AI エージェントに対するウェブベースの攻撃を理解するための最初の体系的フレームワークを公開しました。このペーパーは「AI Agent Traps」の6つのカテゴリを特定しています：コンテンツインジェクション、セマンティック操作、認知状態破損、データ流出、システム的攻撃、およびヒューマン・イン・ザ・ループ操作。データ流出攻撃の成功率は、テストされた5つのエージェント全体で80%を超えました。

攻撃経路

攻撃者は、HTMLコメント、不可視のCSS配置テキスト、またはステガノグラフィック画像データに悪意のある命令を埋め込みます。これらの命令は人間のモデレーターには見えませんが、AI エージェントによって処理されます。RAG ナレッジポイズニングは、0.1%未満のデータポイズニングで80%を超えるバックドア成功率を達成します。

影響を受けるシステム

ウェブをブラウジングする、外部ドキュメントを処理する、または検索拡張生成システムと対話するすべての自律型 AI エージェント。GPT、Claude、Gemini、およびその他の主要な LLM プラットフォーム上に構築されたエージェントを含みます。

緩和策

エージェントが消費するコンテンツに対する入力サニタイゼーションを実装し、プロンプトインジェクションに対する実行時防御をデプロイし、コンテンツガバナンスフレームワークを確立し、高リスクのエージェント操作に対して人間の監督を維持します。このペーパーは、基盤となるモデルを強化するためのトレーニングデータ拡張を推奨しています。