漏洞  ·  2026-04-14

大型推理模型作为自主攻击者实现97%越狱成功率

漏洞High 影响Not applicable (alignment/capability risk)
一项Nature Communications研究测试了四个推理模型(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)作为自主攻击者对抗九个目标,发现97.14%的越狱成功率——将越狱从专家技艺转变为廉价、可扩展的攻击。
自主多步提示工程,其中推理模型基于目标响应生成和迭代越狱提示。
所有部署的LLMs;开放权重模型的企业部署面临更高风险。
主动防御(例如ProAct)注入虚假响应以破坏攻击者反馈循环;LLM加盐;用于评估的越狱蒸馏;对齐工作以防止前沿推理模型被利用为攻击者。
来源
Nature Communications
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →