事件经过
一个多机构研究团队发布了一份预印本(arXiv:2605.09504,未经同行评议),论证AI安全政策应将注意力从对单个前沿模型的访问限制转向系统级能力评估。该论文提出了两个实验:(1) 由五个12亿参数模型组成的集群在对GPT-4o的越狱攻击中实现了45.8%的有效伤害率,产生了49个严重级别的漏洞,以及(2) 相同的模型对一个包含9个植入CWE的易受攻击C应用程序执行了源代码分析和二进制模糊测试的组合,在配备正则表达式模式检测和基于AddressSanitizer的崩溃分类脚手架的消费级MacBook上,在大约四分钟内恢复了全部9个漏洞(100%召回率)。核心观点:"激发[模型访问]限制的攻击能力主要存在于模型周围的脚手架中,并且可以使用小型开放权重模型在商用硬件上复现。"
影响分析
如果攻击能力可以使用开放权重模型和商用硬件以几乎零成本复现,那么对单个前沿模型的访问限制提供的防御价值很有限。这挑战了像Anthropic的Mythos Preview这样的限制性发布的理论基础,并表明AI安全政策应该关注系统架构、脚手架技术和部署环境,而不仅仅是模型访问。预印本,未经同行评议——将发现视为初步但与政策相关的。
建议行动
CISO和AI安全负责人应在第三季度前审查内部安全态势中的基于脚手架的攻击向量,无论他们使用的是前沿模型还是开放权重模型。