NIST：关于有限AI护栏集合不具有普遍鲁棒性的数学证明——为持续监控和更新安全模型奠定基础

事件经过

NIST高级科学家Apostol Vassilev在2026年5月-6月期间发表在IEEE Security & Privacy上的同行评审数学证明（DOI: 10.1109/MSEC.2026.3678214）中，基于哥德尔不完备定理论证了没有有限的AI护栏集合能够对对抗性提示具有普遍鲁棒性。NIST在2026年6月9日发布了新闻稿，强调了该证明及其含义：组织必须从"一劳永逸"的静态护栏模型过渡到针对AI系统的持续监控和更新安全架构。

影响分析

提供了严格的理论基础——以数学逻辑为基础——说明在充分的对抗性努力下，为什么AI安全护栏总是可被绕过的。这不是观点文章：它是在IEEE Security & Privacy上发表的同行评审证明，并被NIST强调为基础性指导。它直接挑战了"完整的"AI安全的产品声称，并要求从业者将AI安全视为持续的运营学科，而不是一次性的部署关卡。适用于部署LLM、代理AI或其他由护栏管控的AI系统的每个组织。

建议行动

审查并更新AI安全架构，采用持续监控、自适应护栏更新和持续对抗性测试，而不是静态一次性安全验证。将发现映射到NIST AI RMF GOVERN和MEASURE功能。