Attack  ·  用語集

CoT forgery (chain-of-thought forgery)

AI推論モデルの内部的な「思考」スタイルを完璧に模倣するテキストをアタッカーが注入するchain-of-thought hijackingの特定の手法。モデルはセキュアな構造化タグではなく、文体を使用して自身の思考と外部入力を区別しているため、偽造された推論テキストはモデル自身が生成したものとして受け入れられ、セーフティチェックをバイパスする。
これは現在のAI推論モデルの仕組みにおける構造的な欠陥であり、ソフトウェアアップデートでパッチできるバグではない。つまり、推論モデルに組み込まれたセーフティガードレールは、モデルの推論スタイルを理解している者であれば誰でも体系的に回避できるということを意味する。
参考資料
ICML 2026 — Prompt Injection as Role Confusion (Ye, Cui, Hadfield-Menell)
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →