定义 由NIST提出的数学证明,表明应用于AI系统的任何有限的安全规则集都无法阻止每一个可能的有害输入或输出——对手总能找到某个边界情况来绕过这些规则。这意味着AI安全护栏必须被视为持续更新的防御,而非一次性的修复。 影响分析董事会和监管机构有时假设一旦AI系统通过安全评估,就永久安全了。NIST的证明表明这个假设是错误的:安全是一个持续的过程,需要持续监测、红队测试和更新——而不是一个永远有效的认证。