エージェント赤チームツール（12システム） — エージェントフィッシングによるシステマティックなサンドボックス脱出とAPIキー流出（arXiv 2606.24496）

何が起きたか

Crackenの研究者は2026年6月23日に広く使用されている12のエージェント型オフェンシブセキュリティプラットフォーム（CAI、RedAmon、PentestAgent、DarkMoon、PentAGI、AIRecon、PentestGPT、METATRON、Nebula、Xalgorix、Artemis、STRIX）の最初のシステマティックセキュリティ監査を発行しました。彼らは10/12が完全なサンドボックス脱出とホストレベルRCEに脆弱であること、11/12がLLMプロバイダーAPIキーを漏洩させること、すべての12がガードレールをバイパスする無制限の武器化の影響を受けることを発見しました。主な攻撃は'エージェントフィッシング'です：エージェントがその通常のワークフローの一部としてダウンロードして実行する現実的に見える悪意のあるアーティファクト（例えば、偽のパスワードボールトツール'pwcrypt'）をハニーポットターゲット上にステージング - 明示的なプロンプトインジェクションは必要ありません。10のエージェントと6つのフロンティアLLM（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、DeepSeek V4 Pro）全体で、攻撃は97.8%のRCE成功率を達成しました。

なぜ重要か

これらのエージェント型赤チームプラットフォームは実際の運用セキュリティコンテキストでますます展開されています。侵透テストターゲットを制御する敵対者は、それを実行している組織に対してテストエージェントを武器化できます。LLMAPIキーを盗み、永続性を確立し、Dockerソケットマウント経由でコンテナをエスケープし、オペレーターのマシン上で完全なホスト侵害を達成します。これはセキュリティツールを責任に変え、AI増強セキュリティ操作に対する新規で高影響の攻撃クラスを表しています。

攻撃経路

攻撃者は侵透テストターゲットホストを制御し、悪意のあるが現実的に見えるバイナリ/ツールをステージングします。エージェント型赤チームシステムは通常の操作中にそれらを発見、ダウンロード、実行し、リバースシェルまたはメモリ破壊悪用をトリガーして、サンドボックス脱出とホストRCEに昇格させます。

影響を受けるシステム

CAI、RedAmon、PentestAgent、DarkMoon、PentAGI、AIRecon、PentestGPT、METATRON、Nebula、Xalgorix、Artemis、STRIX（2026年6月現在のすべての監査済みバージョン）

緩和策

単一パッチは利用できません。アーキテクチャレベルの軽減策が必要です：厳格な最小権限コンテナ設定（--privilegedなし、Dockerソケットマウントなし）を強制し、ワーカー環境をネットワークセグメント化し、すべてのツール出力を信頼されていないものとして扱い、バイナリ実行前に人間参加ゲートを実装します。詳細なセキュアアーキテクチャについては論文を参照してください: https://arxiv.org/abs/2606.24496