Singapore Government AI Agents Sandbox: 間接的なプロンプトインジェクションによるRCE実現が最大の本番環境エージェント攻撃ベクトルとして確認

技術的な説明

シンガポールのCSA、GovTech、IMDA、およびGoogleによる共同AI Agents Sandbox — 2026年5月20日に発表された政府部門の実際のワークフローにおけるコンピュータ使用エージェントに関する4ヶ月間の実証研究 — 間接的なプロンプトインジェクションを最も顕著なサイバーセキュリティリスクとして特定し、リモートコード実行(RCE)をトリガーする機能があることを明確に指摘しました。この知見は、政府デジタルサービスに対して自動化されたQA、AI安全テスト、および社会支援ワークフローにおけるコンピュータ使用エージェントをテストしたことから生じました。サンドボックスは、Webコンテンツ、ドキュメント、または外部システム出力と相互作用するエージェントが、直接的なユーザー指示ではなく、エージェントが処理するコンテンツに埋め込まれた悪意のあるペイロードを通じて、意図しないアクション(任意のコード実行を含む)を実行するように操作される可能性があることを文書化しました。

攻撃経路

環境コンテンツを介した間接的なプロンプトインジェクション: 悪意のあるアクターが、Webページ、ドキュメント、APIレスポンス、またはエージェントが取得して処理する外部コンテンツにインジェクションペイロードを埋め込みます。取得したコンテンツを信頼できるコンテキストとして扱うエージェントは、埋め込まれた指示に従います。シェルコマンド、コード実行、またはファイルシステム操作へのアクセスを持つコンピュータ使用エージェントの場合、このパスウェイは直接的なユーザー相互作用なしで完全なRCEを実現できます。

影響を受けるシステム

エージェントが外部コンテンツを処理するすべてのエージェント型AI展開(Webブラウジングエージェント、ドキュメント処理エージェント、メールエージェント、RAGベースのエージェント、コンピュータ使用エージェント)。特に高リスク: シェル実行、コードインタープリター、ファイル書き込みアクセス、または環境認証情報を伴う外部APIコールを含むツール呼び出し機能を持つエージェント。

緩和策

アーキテクチャー上の緩和策: (1) 指示的コンテンツ(システムプロンプットおよび信頼できるユーザー入力からの)を取得された/環境的コンテンツから厳密に分離する — すべての外部コンテンツを指示ではなく信頼できないデータとして扱う。(2) 必要最小限の権限を備えたツール呼び出しホワイトリストを実装する。外部コンテンツ取得ツールに環境認証情報アクセスを決して付与しない。(3) エージェントの推論によってツール呼び出し実行がトリガーされる前に出力検証レイヤーをデプロイする。(4) 相関IDを使用してすべてのツール呼び出しをログに記録し、取得されたコンテンツ内の異常な指示パターンにフラグを付ける。(5) 本番環境リリース前に間接的なプロンプトインジェクションテストスイートを使用してすべてのエージェント展開をテストする — これをオプションのQAステップではなく必須のセキュリティゲートとして扱う。