NeuralTrust：思维链劫持研究——前沿推理模型上高达100%的安全绕过

事件经过

NeuralTrust于2026年6月25日发布了研究，演示了思维链劫持——一种越狱技术，通过在数千个tokens的良性推理下掩埋有害提示以稀释拒绝信号，在Gemini 2.5 Pro上达到99%的成功率，在Grok 3 Mini上达到100%。NeuralTrust的平台将飞行中安全验证定位为缓解措施。

影响分析

证明"推理更多"并不等于"更安全"——使大型推理模型（LRM）强大的能力本身成为可利用的攻击面。任何在智能体或客户对接环境中的前沿推理模型部署都面临风险。

适用范围

在智能体或用户对接角色中部署推理模型（Gemini 2.5、GPT o系列、Grok）的团队应实施连续飞行中意图监控，而不是仅依赖初始提示过滤；评估LLM防火墙供应商的推理链检查能力。