Attack  ·  术语库

CoT forgery (chain-of-thought forgery)

一种特定的思维链劫持技术,其中攻击者注入完全模仿AI推理模型内部"思考"风格的文本。由于该模型使用写作风格而非安全的结构标签来区分自己的思想和外部输入,伪造的推理文本被接受为模型自己生成的内容,绕过了安全检查。
这是当前AI推理模型工作方式中的一个结构性缺陷——不是可以通过软件更新修补的bug。这意味着内置于推理模型中的安全防护栏可以被任何理解该模型推理风格的人系统地击败。
参考资料
ICML 2026 — Prompt Injection as Role Confusion (Ye, Cui, Hadfield-Menell)
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →