Microsoftの AI Red Team がエージェント型 AI の障害モード分類法を更新 — 12 か月間の本番環境レッドチーミングから 7 つの新しいモード

何が起きたか

Microsoft の AI Red Team は 6 月 4 日、エージェント型 AI システムにおける障害モードの更新された分類法を発表しました。これは Microsoft Security Copilot と MCP エコシステムを含む本番環境デプロイメントに対する 1 年間のレッドチーム活動から導き出された 7 つの新しいカテゴリを追加しています。新しいカテゴリは、エージェント型サプライチェーン侵害、ゴール乗っ取り、エージェント間信頼昇格、コンピュータ使用エージェントの視覚的攻撃、セッションコンテキスト汚染、MCP/プラグイン悪用、および機能/アーキテクチャ開示です。このポストでは、オープンソースのエージェント型フレームワーク (OpenClaw) が、336 件の確認された悪質なプラグインを含みながら数千のデプロイメントを急速に蓄積した方法について説明しており、エージェントエコシステムがセキュリティレビューより速くスケール可能であることを示しています。

なぜ重要か

2025 年の初版（将来を見据えたものでした）とは異なり、この更新は本番環境で確認された悪用チェーンに基づいています。ゼロクリックのデータ流出と横展開は外部由来の入力のみから記録され、初期エージェントデプロイメント以外のユーザーインタラクションはありません。ループ内のヒューマンバイパスは、最も悪用された障害モードとして識別され、承認プロンプトが意味のあるセキュリティを提供するという仮定に直接異議を唱えています。Microsoft はエージェント SBOM 生成、タスクごとのアイデンティティ検証、およびツール呼び出しごとの最小権限スコープを推奨しています。

必要な対応

7 つの新しい障害モードをデプロイされたエージェントアーキテクチャにマップしてください。特に、ヒューマン承認プロンプトをバイパスできるかどうか、および MCP/プラグインレジストリが悪質なエントリについてレビューされているかどうかを監査してください。