事件经过
英国AI安全研究所于2026年6月18日发布了其工程手册,开源了其为评估前沿AI模型而开发的完整评估基础设施堆栈。该手册围绕五个层级——评估、隔离、连接、运行和扩展——组织,并记录了大规模运行严格、可重现AI评估所需的方法、实践和支持基础设施。AISI将其描述为"完整的资源,记录了我们在评估前沿AI系统时开发的方法和实践",明确旨在让研究人员和组织能够"从零开始建立严格的评估能力"。该版本基于AISI的Inspect AI工具包(由METR采用,用于其在《2026年国际AI安全报告》中引用的228任务时间范围评估,以及Apollo Research在弃用其内部框架后采用),并随附该工具包附带基础设施文档,涵盖安全沙箱、模型提供者代理、计算管理和超级计算机规模推理。该手册可在engineering-playbook.aisi.org.uk免费获取。
影响分析
对于任何寻求对前沿AI模型进行可信独立评估的组织——政府、企业或研究机构——这现在是来自全球领先的政府AI评估机构的权威开放参考;采用它可以降低评估计划设计的风险,并表明与新兴国际标准的一致性。
建议行动
与您的AI安全和评估团队分享作为任何内部前沿模型评估计划的基线参考;评估您当前设置缺少五个基础设施层级中的哪一个(评估、隔离、连接、运行、扩展),并相应地确定优先级。