解决方案  ·  2026-06-27

NeuralTrust:思维链劫持研究——前沿推理模型上高达100%的安全绕过

解决方案High 影响Global
NeuralTrust于2026年6月25日发布了研究,演示了思维链劫持——一种越狱技术,通过在数千个tokens的良性推理下掩埋有害提示以稀释拒绝信号,在Gemini 2.5 Pro上达到99%的成功率,在Grok 3 Mini上达到100%。NeuralTrust的平台将飞行中安全验证定位为缓解措施。
证明"推理更多"并不等于"更安全"——使大型推理模型(LRM)强大的能力本身成为可利用的攻击面。任何在智能体或客户对接环境中的前沿推理模型部署都面临风险。
在智能体或用户对接角色中部署推理模型(Gemini 2.5、GPT o系列、Grok)的团队应实施连续飞行中意图监控,而不是仅依赖初始提示过滤;评估LLM防火墙供应商的推理链检查能力。
来源
NeuralTrust — Chain-of-Thought Hijacking: How Longer Reasoning Breaks AI SafetySiliconAngle — New MCP specification kills old risks but opens fresh attack surfaces, Akamai finds (2026-06-25)
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →