事件经过
NeuralTrust于2026年6月25日发布了研究,演示了思维链劫持——一种越狱技术,通过在数千个tokens的良性推理下掩埋有害提示以稀释拒绝信号,在Gemini 2.5 Pro上达到99%的成功率,在Grok 3 Mini上达到100%。NeuralTrust的平台将飞行中安全验证定位为缓解措施。
影响分析
证明"推理更多"并不等于"更安全"——使大型推理模型(LRM)强大的能力本身成为可利用的攻击面。任何在智能体或客户对接环境中的前沿推理模型部署都面临风险。
适用范围
在智能体或用户对接角色中部署推理模型(Gemini 2.5、GPT o系列、Grok)的团队应实施连续飞行中意图监控,而不是仅依赖初始提示过滤;评估LLM防火墙供应商的推理链检查能力。