何が起きたか
中国科学技術大学、シンガポール国立大学、シンガポール経営大学、およびShanghai AI Laboratoryの研究者らは、2026年5月27日にプレプリント(arXiv:2605.28201)を発表し、LLMエージェント向けの「スリーパー攻撃」脅威モデルを形式化した。7つのLLM(オープンソースおよびクローズドソース)全体で1,896のインスタンスでテストされた本研究は、ツール返却データ、ウェブページ、またはMCPコンテキストに注入された悪意のあるコンテンツがエージェント状態(セッションコンテキスト、メモリ、再利用可能なスキル)に複数のインタラクション間で持続し、良性のユーザークエリで活性化される可能性を示している — 直接的なプロンプトインジェクションに耐性があると見なされたエージェントでも、単一インタラクションのベースラインより高い攻撃成功率を達成している。
なぜ重要か
エージェンティックAIの既存の防御体制 — ほとんどのプロンプトインジェクション防御を含む — は、悪意のあるコンテンツが同じユーザーリクエスト内で有害な動作をトリガーする必要があると想定している。スリーパー攻撃はこの仮定を無効にする: エージェントのメモリに埋め込まれた悪意のある命令は、数日または数週間は休止状態のままで、完全に無関係な良性リクエストによってトリガーされる可能性があり、検出と属性付けを劇的に困難にする。シンガポールから共同著作されたこの研究は、メモリ対応または長時間実行されるエージェンティックAIシステムを展開する企業に直接的な関連性を持つ。
必要な対応
展開されたエージェントが永続的なメモリまたは再利用可能なスキルストアを持つかどうかを確認し、より厳密な制御を適用する: 外部コンテンツからのメモリへの書き込みを制限し、ロードされたスキルに整合性チェックを追加し、セッション全体で相関のある異常なツール呼び出しを探す動作監視を実装する — 単一リクエスト内だけではなく。