定义 一种特定的思维链劫持技术,其中攻击者注入完全模仿AI推理模型内部"思考"风格的文本。由于该模型使用写作风格而非安全的结构标签来区分自己的思想和外部输入,伪造的推理文本被接受为模型自己生成的内容,绕过了安全检查。 影响分析这是当前AI推理模型工作方式中的一个结构性缺陷——不是可以通过软件更新修补的bug。这意味着内置于推理模型中的安全防护栏可以被任何理解该模型推理风格的人系统地击败。