定義
AI推論モデルの内部的な「思考」スタイルを完璧に模倣するテキストをアタッカーが注入するchain-of-thought hijackingの特定の手法。モデルはセキュアな構造化タグではなく、文体を使用して自身の思考と外部入力を区別しているため、偽造された推論テキストはモデル自身が生成したものとして受け入れられ、セーフティチェックをバイパスする。
なぜ重要か
これは現在のAI推論モデルの仕組みにおける構造的な欠陥であり、ソフトウェアアップデートでパッチできるバグではない。つまり、推論モデルに組み込まれたセーフティガードレールは、モデルの推論スタイルを理解している者であれば誰でも体系的に回避できるということを意味する。