Question 1

什么是Chain-of-thought hijacking？

Accepted Answer

针对展示逐步推理的AI模型（所谓的"推理"或"思考"模型）的攻击。攻击者注入虚假推理文本，模仿模型的内部思考方式，诱骗它绕过自身安全规则——在研究测试中实现了近100%的成功率。模型"大声思考"得越多，攻击者可操纵的表面积就越大。

Question 2

Chain-of-thought hijacking对 AI 安全为何重要？

Accepted Answer

安全审查通常假设能力更强、更谨慎的AI模型更安全——这种攻击颠覆了这一假设，意味着你最强大的AI助手可能是最容易被利用的。董事会应该询问供应商他们的推理模型是否已经针对这类攻击进行了专门测试。