脆弱性  ·  2026-04-11

Google DeepMind が「AI Agent Traps」タクソノミーを公開:自律型エージェントに対する6つの攻撃カテゴリ

脆弱性High 影響度
Google DeepMind の研究者たちは、自律型 AI エージェントに対するウェブベースの攻撃を理解するための最初の体系的フレームワークを公開しました。このペーパーは「AI Agent Traps」の6つのカテゴリを特定しています:コンテンツインジェクション、セマンティック操作、認知状態破損、データ流出、システム的攻撃、およびヒューマン・イン・ザ・ループ操作。データ流出攻撃の成功率は、テストされた5つのエージェント全体で80%を超えました。
攻撃者は、HTMLコメント、不可視のCSS配置テキスト、またはステガノグラフィック画像データに悪意のある命令を埋め込みます。これらの命令は人間のモデレーターには見えませんが、AI エージェントによって処理されます。RAG ナレッジポイズニングは、0.1%未満のデータポイズニングで80%を超えるバックドア成功率を達成します。
ウェブをブラウジングする、外部ドキュメントを処理する、または検索拡張生成システムと対話するすべての自律型 AI エージェント。GPT、Claude、Gemini、およびその他の主要な LLM プラットフォーム上に構築されたエージェントを含みます。
エージェントが消費するコンテンツに対する入力サニタイゼーションを実装し、プロンプトインジェクションに対する実行時防御をデプロイし、コンテンツガバナンスフレームワークを確立し、高リスクのエージェント操作に対して人間の監督を維持します。このペーパーは、基盤となるモデルを強化するためのトレーニングデータ拡張を推奨しています。
出典
SSRN — AI Agent Traps (DeepMind Paper)SecurityWeek — Google DeepMind Researchers Map Web Attacks Against AI AgentsCyberSecurityNews — Hackers Hijack AI Agents Through Malicious Web Content
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →