Attack  ·  术语库

Chain-of-thought hijacking

针对展示逐步推理的AI模型(所谓的"推理"或"思考"模型)的攻击。攻击者注入虚假推理文本,模仿模型的内部思考方式,诱骗它绕过自身安全规则——在研究测试中实现了近100%的成功率。模型"大声思考"得越多,攻击者可操纵的表面积就越大。
安全审查通常假设能力更强、更谨慎的AI模型更安全——这种攻击颠覆了这一假设,意味着你最强大的AI助手可能是最容易被利用的。董事会应该询问供应商他们的推理模型是否已经针对这类攻击进行了专门测试。
参考资料
NeuralTrust: Chain-of-Thought Hijacking Research
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →