プロンプトインジェクションとしてのロール混同 — ICML 2026 論文が機能する PoC を含む構造的 LLM 攻撃クラスを実証

何が起きたか

Ye、Cui、Hadfield-Menell による論文は ICML 2026（arXiv:2603.12277）で採択され、2026 年 6 月 24～25 日頃にウェブに公開されました。この論文は、現在の LLM がメッセージロールを正式なロールタグ（system/user/tool）ではなく主に文体とトーンで識別していることを証明しています。攻撃者はツール出力または外部データにシステムプロンプトまたはユーザーターンの文体署名を模倣するコンテンツを埋め込むことができ、モデルがそれを信頼できる命令として実行させることができます。論文は「CoT Forgery」を導入します（モデルが自らの以前の思考と間違える偽の思考の連鎖を注入する）。さらに、デスタイリング（注入されたコンテンツの文体を変更する）により、攻撃成功率が 61% から約 10% に低下することを示し、文体が支配的な信号であることを確認しています。

なぜ重要か

これはより良いシステムプロンプトの言い回しでパッチできるプロンプトエンジニアリングの問題ではなく、LLM がロールを認識する方法における構造的な欠陥です。外部データ（ウェブページ、メール、ドキュメント、ツール出力）を処理する任意の展開済み LLM エージェントが潜在的に脆弱です。PoC はフロンティアモデルで高いベースライン成功率（61%）を示し、以前の軽減策が失敗する理由に対する機構的な説明を提供します。CoT Forgery は推論チェーンモデル（o1、Claude 3.x、Gemini 2.x）に対する新規の攻撃ベクトルであり、偽造された内部思考が自律的な行動を操向できます。

攻撃経路

ツール出力、ウェブ取得ページ、メール、またはドキュメントに埋め込まれた悪意のあるコンテンツが、システム/ユーザーロールマーカーを模倣するように文体的にフォーマットされており、LLM エージェントに注入された命令を実行させます。CoT Forgery バリアントは偽造された推論トレースを注入します

影響を受けるシステム

混合ロールコンテキストウィンドウを処理するすべての主要な LLM 展開、特にチェーン・オブ・ソート推論を使用するエージェントシステム（GPT-4o、Claude、Gemini など）

緩和策

コンテキストウィンドウに注入する前に、ツール/外部データ出力にデスタイリングを適用します（攻撃成功率が 61% から約 10% に低下します）。取得したすべてのコンテンツを敵対的として扱います。エージェント実行をサンドボックス化します。異常な命令従従パターンの出力を監視します。現在、モデルレベルのパッチは利用できません。論文：https://arxiv.org/abs/2603.12277