事件经过
NIST高级科学家Apostol Vassilev在2026年5月-6月期间发表在IEEE Security & Privacy上的同行评审数学证明(DOI: 10.1109/MSEC.2026.3678214)中,基于哥德尔不完备定理论证了没有有限的AI护栏集合能够对对抗性提示具有普遍鲁棒性。NIST在2026年6月9日发布了新闻稿,强调了该证明及其含义:组织必须从"一劳永逸"的静态护栏模型过渡到针对AI系统的持续监控和更新安全架构。
影响分析
提供了严格的理论基础——以数学逻辑为基础——说明在充分的对抗性努力下,为什么AI安全护栏总是可被绕过的。这不是观点文章:它是在IEEE Security & Privacy上发表的同行评审证明,并被NIST强调为基础性指导。它直接挑战了"完整的"AI安全的产品声称,并要求从业者将AI安全视为持续的运营学科,而不是一次性的部署关卡。适用于部署LLM、代理AI或其他由护栏管控的AI系统的每个组织。
建议行动
审查并更新AI安全架构,采用持续监控、自适应护栏更新和持续对抗性测试,而不是静态一次性安全验证。将发现映射到NIST AI RMF GOVERN和MEASURE功能。