大型推理模型作为自主攻击者实现97%越狱成功率

技术说明

一项Nature Communications研究测试了四个推理模型（DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B）作为自主攻击者对抗九个目标，发现97.14%的越狱成功率——将越狱从专家技艺转变为廉价、可扩展的攻击。

攻击途径

自主多步提示工程，其中推理模型基于目标响应生成和迭代越狱提示。

受影响系统

所有部署的LLMs；开放权重模型的企业部署面临更高风险。

缓解措施

主动防御（例如ProAct）注入虚假响应以破坏攻击者反馈循环；LLM加盐；用于评估的越狱蒸馏；对齐工作以防止前沿推理模型被利用为攻击者。