监督缺失：AI系统如何可能变得更难审计、监控和调查

事件经过

UK AI Safety Institute在2026年5月21日发布了一份研究报告，探讨了随着系统能力增强，当前的AI监督方法是否仍然有效。该报告基于对前沿AI开发者、政府、NGO和学术界的25次专家访谈，识别了四个监督面——内部激活、chain-of-thought推理、外部行动和智能体间通信——并绘制了超过二十条可能导致它们退化的路径。主要发现：chain-of-thought (CoT)推理作为目前最具信息量的监控信号，面临来自潜在推理架构的重大压力，这种架构让模型完全在内部状态中进行推理，而非人类可读的文本；仅基于行动的监控提供了底线但本身是不足的；监督训练（如训练模型诚实或透明）可能无法泛化到部署环境中。报告得出结论，当前的监督依赖于今日AI系统的偶然属性，这些属性在没有干预的情况下很可能会消失，而新兴方法还不够成熟以进行补偿。

影响分析

先进AI的安全论证越来越依赖于监督——在部署前审计模型、在使用中监控行为、在事件发生后进行调查的能力。如果监督按照报告所建议的速度退化，机构将失去在部署前检测不对齐、奖励黑客攻击、评估游戏化和其他风险的能力，被迫完全依赖预防（这无法消除复杂社会技术系统中的剩余风险）。报告揭示了专家在关键假设上的分歧——潜在推理是否会占主导地位、行动监控是否足够、对齐蜜罐是否有意义——暴露了当前安全案例中的差距。

建议行动

AI治理团队应该盘点其组织依赖的监督技术，并评估对报告所识别的退化路径的暴露程度；模型开发者应该评估chain-of-thought监控对其部署时间线是否仍然可行，并投资新兴技术（白盒访问、控制协议）作为后备方案；董事会应该询问安全案例是否明确考虑了监督退化，或者假设当前的监控能力将持续存在。