事件经过
来自Princeton、Stanford HAI及合作者的研究人员于2026年5月19日在arXiv上发表了一篇预印本论文(2605.20520),提出"开放世界评估"作为基于基准测试的能力评估的补充。该框架针对长时间跨度、复杂的现实世界任务,通过小样本定性分析而非基准测试规模的自动化进行评估。论文调研了之前的开放世界评估(例如Carlini的C编译器构建、Anthropic的办公用品商店管理),引入了CRUX(Collaborative Research for Updating AI eXpectations)作为定期进行此类评估的项目,并报告了第一个实例:让AI智能体开发并发布一个简单的iOS应用程序到Apple App Store。智能体仅通过一次可避免的人工干预就完成了任务,表明开放世界评估可以在基准测试检测到能力之前数月提供早期预警。论文承认了局限性——样本量为一、缺乏标准化、难以复现——但认为这些权衡是发现新兴能力和揭示自动化评分盲点所必需的。
影响分析
基准测试分数将目标能力与评估环境的伪影混淆——当任务易于优化或泄漏到训练数据中时会高估,当智能体在与测试能力无关的偶发障碍(CAPTCHA、速率限制、脆弱的GUI元素)上失败时会低估。随着智能体承担越来越多的自主、长时间跨度任务,基准测试信号中的噪声增加。开放世界评估提供关于可能即将普及的能力的早期预警,为机构和政策制定者提供准备时间来构建社会韧性,并为部署、监管和投资的战略决策提供信息。该框架将AI实验室中已经出现但缺乏共同方法论的实践进行了形式化。
建议行动
评估人员应该评估当前的能力评估是否完全依赖基准测试,并考虑在高风险领域(自主系统、代码生成、长时间跨度规划)试点开放世界评估;政策团队在设计评估要求时应注意可重现性与早期预警信号之间的权衡;研究机构应审查CRUX方法论以系统性地进行此类评估。