ガイドライン  ·  2026-06-06

Microsoftの AI Red Team がエージェント型 AI の障害モード分類法を更新 — 12 か月間の本番環境レッドチーミングから 7 つの新しいモード

ガイドラインHigh 影響度Global
Microsoft の AI Red Team は 6 月 4 日、エージェント型 AI システムにおける障害モードの更新された分類法を発表しました。これは Microsoft Security Copilot と MCP エコシステムを含む本番環境デプロイメントに対する 1 年間のレッドチーム活動から導き出された 7 つの新しいカテゴリを追加しています。新しいカテゴリは、エージェント型サプライチェーン侵害、ゴール乗っ取り、エージェント間信頼昇格、コンピュータ使用エージェントの視覚的攻撃、セッションコンテキスト汚染、MCP/プラグイン悪用、および機能/アーキテクチャ開示です。このポストでは、オープンソースのエージェント型フレームワーク (OpenClaw) が、336 件の確認された悪質なプラグインを含みながら数千のデプロイメントを急速に蓄積した方法について説明しており、エージェントエコシステムがセキュリティレビューより速くスケール可能であることを示しています。
2025 年の初版(将来を見据えたものでした)とは異なり、この更新は本番環境で確認された悪用チェーンに基づいています。ゼロクリックのデータ流出と横展開は外部由来の入力のみから記録され、初期エージェントデプロイメント以外のユーザーインタラクションはありません。ループ内のヒューマンバイパスは、最も悪用された障害モードとして識別され、承認プロンプトが意味のあるセキュリティを提供するという仮定に直接異議を唱えています。Microsoft はエージェント SBOM 生成、タスクごとのアイデンティティ検証、およびツール呼び出しごとの最小権限スコープを推奨しています。
7 つの新しい障害モードをデプロイされたエージェントアーキテクチャにマップしてください。特に、ヒューマン承認プロンプトをバイパスできるかどうか、および MCP/プラグインレジストリが悪質なエントリについてレビューされているかどうかを監査してください。
出典
Microsoft Security Blog — Updating the Taxonomy of Failure Modes in Agentic AI Systems
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →