事件经过
本立场文件论证,行为保证方法(评估、红队测试、系统卡片)正被要求验证它们在认识论上无法确立的安全属性。2019年至2026年初颁布的AI治理框架要求"可审查的属性证据,如缺乏隐藏目标、对失控前兆的抗性,以及有界的灾难性能力",但当前的保证方法仅限于可观察的模型输出,无法验证潜在表征或长期代理行为。作者将此正式化为"审计差距"——所需验证访问与可实现验证访问之间的分歧——并引入"脆弱保证"来描述证据结构不支持所声明安全声明的情况。通过分析21项治理工具(包括EU AI Act第55条、California SB-53、Singapore AI Verify、South Korea AI Basic Act等),该文件识别出一种激励梯度,其中地缘政治和工业压力奖励表面层次的行为代理而非深层结构验证。作者提出限制行为证据在法律文本中的权重,并通过机制证据类别(线性探针、激活补丁、训练前后比较)扩展自愿部署前访问。预印本,未经同行评议。
影响分析
随着前沿AI系统变得更具代理性和重要性,治理要求与审计员可验证内容之间的差距造成了系统性脆弱性。监管机构和董事会依赖行为评估来支持高风险安全声明,可能正在接受无法检测其声称测量属性的保证——这是一个随着模型规模扩大而增长的结构性风险。
建议行动
审查您的AI治理框架,以区分可通过行为测试验证的属性和需要机制访问的属性。如果您的合规策略完全依赖行为评估来支持高后果声明(例如,缺乏欺骗、有界的灾难性能力),考虑补充机制可解释性方法或调整声明范围以匹配证据支持。