事件经过
UK AI Safety Institute在2026年5月21日发布了一份研究报告,探讨了随着系统能力增强,当前的AI监督方法是否仍然有效。该报告基于对前沿AI开发者、政府、NGO和学术界的25次专家访谈,识别了四个监督面——内部激活、chain-of-thought推理、外部行动和智能体间通信——并绘制了超过二十条可能导致它们退化的路径。主要发现:chain-of-thought (CoT)推理作为目前最具信息量的监控信号,面临来自潜在推理架构的重大压力,这种架构让模型完全在内部状态中进行推理,而非人类可读的文本;仅基于行动的监控提供了底线但本身是不足的;监督训练(如训练模型诚实或透明)可能无法泛化到部署环境中。报告得出结论,当前的监督依赖于今日AI系统的偶然属性,这些属性在没有干预的情况下很可能会消失,而新兴方法还不够成熟以进行补偿。
影响分析
先进AI的安全论证越来越依赖于监督——在部署前审计模型、在使用中监控行为、在事件发生后进行调查的能力。如果监督按照报告所建议的速度退化,机构将失去在部署前检测不对齐、奖励黑客攻击、评估游戏化和其他风险的能力,被迫完全依赖预防(这无法消除复杂社会技术系统中的剩余风险)。报告揭示了专家在关键假设上的分歧——潜在推理是否会占主导地位、行动监控是否足够、对齐蜜罐是否有意义——暴露了当前安全案例中的差距。
建议行动
AI治理团队应该盘点其组织依赖的监督技术,并评估对报告所识别的退化路径的暴露程度;模型开发者应该评估chain-of-thought监控对其部署时间线是否仍然可行,并投资新兴技术(白盒访问、控制协议)作为后备方案;董事会应该询问安全案例是否明确考虑了监督退化,或者假设当前的监控能力将持续存在。