MemPoison — 通常の対話を通じてLLMエージェントの長期記憶に持続的なバックドアを注入するステルストロイ攻撃、選別的記憶防御を回避

技術的な説明

清華大学、PLA情報工学大学およびその関連機関の研究者がMemPoison（arXiv:2605.29960、2026-05-28）を発表しました。これは長期記憶を持つLLMエージェントに対する新規のメモリポイズニング攻撃です。直接のデータベース書き込みアクセスを想定する先行研究とは異なり、MemPoisonは完全にオーディナリーなブラックボックス対話相互作用を通じて動作します。この攻撃は3つのコンポーネントを使用します：（1）トリガーと悪意のあるペイロードを一貫性のある文に結合し、エージェントの選別的記憶抽出で両者が生き残ることを保証するセマンティックリレーショナルブリッジ、（2）トリガーを名前付きエンティティに偽装してエージェントのメモリ書き換え段階に耐性を持つエンティティなりすまし、（3）トリガー注入テキストを良性の埋め込みの近くにクラスタリングしてステルス性を維持しながら信頼できる検索のための分離を保つ共同埋め込み最適化。複数のエージェントドメインとメモリアーキテクチャ全体で評価すると、MemPoisonは攻撃成功率0.95まで達成し、先行手法を大幅に上回ります。一方、既存の防御（検出ベースと隔離ベースのアプローチを含む）はこれを確実に軽減できません。

攻撃経路

攻撃者は通常のユーザーインターフェースを通じてメモリ拡張型LLMエージェントと相互作用します。トリガーペイロード構成を含む細工された対話メッセージはエージェントのメモリ取り込みパイプラインを通過し、選別的に抽出され（フィルタリングステップを生き残り）、長期記憶ストレージに持続し、その後のマッチング将来クエリで検索されます。これによりトリガー条件が満たされるとエージェントは攻撃者指定の動作を実行します。権限あるアクセスは不要です。この攻撃はセッション間で繰り返し可能です。

影響を受けるシステム

長期記憶メカニズムを持つLLMエージェント（MemGPTスタイルのシステム、永続的なエピソディック記憶を持つRAG拡張エージェント、セッション履歴を持つカスタマーサービスエージェント、プロジェクト記憶を持つコーディングエージェント）。OpenClaw、Codex、Claude Codeの本番デプロイメントおよびユーザー相互作用履歴を保存するエージェントフレームワークは、メモリフィルタリングが回避できる場合、構造的に露出しています。

緩和策

直接的なパッチはありません。研究者は複数の防御戦略を評価し、すべてに基本的な制限があることを発見しました。推奨される暫定的なコントロール：（1）エージェント長期記憶ストアを信頼できる状態ではなく敵対的入力として扱う — 抽出されたメモリエントリに異常検知を適用し、特に異常に特定の名前付きエンティティ関連付けを探す。（2）信頼できないまたは公開向けエージェントのメモリ永続性を制限する。（3）タスク修正指示を含むメモリエントリが永続的ストレージにコミットされる前に人間によるレビューを要求する。（4）本番デプロイメント前にメモリ拡張エージェントをMemPoisonクラスの敵対的入力の下で評価する。