技术说明
一项Nature Communications研究测试了四个推理模型(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)作为自主攻击者对抗九个目标,发现97.14%的越狱成功率——将越狱从专家技艺转变为廉价、可扩展的攻击。
攻击途径
自主多步提示工程,其中推理模型基于目标响应生成和迭代越狱提示。
受影响系统
所有部署的LLMs;开放权重模型的企业部署面临更高风险。
缓解措施
主动防御(例如ProAct)注入虚假响应以破坏攻击者反馈循环;LLM加盐;用于评估的越狱蒸馏;对齐工作以防止前沿推理模型被利用为攻击者。