AISI工程手册：构建AI评估能力的开放指南

事件经过

英国AI安全研究所于2026年6月18日发布了其工程手册，开源了其为评估前沿AI模型而开发的完整评估基础设施堆栈。该手册围绕五个层级——评估、隔离、连接、运行和扩展——组织，并记录了大规模运行严格、可重现AI评估所需的方法、实践和支持基础设施。AISI将其描述为"完整的资源，记录了我们在评估前沿AI系统时开发的方法和实践"，明确旨在让研究人员和组织能够"从零开始建立严格的评估能力"。该版本基于AISI的Inspect AI工具包（由METR采用，用于其在《2026年国际AI安全报告》中引用的228任务时间范围评估，以及Apollo Research在弃用其内部框架后采用），并随附该工具包附带基础设施文档，涵盖安全沙箱、模型提供者代理、计算管理和超级计算机规模推理。该手册可在engineering-playbook.aisi.org.uk免费获取。

影响分析

对于任何寻求对前沿AI模型进行可信独立评估的组织——政府、企业或研究机构——这现在是来自全球领先的政府AI评估机构的权威开放参考；采用它可以降低评估计划设计的风险，并表明与新兴国际标准的一致性。

建议行动

与您的AI安全和评估团队分享作为任何内部前沿模型评估计划的基线参考；评估您当前设置缺少五个基础设施层级中的哪一个（评估、隔离、连接、运行、扩展），并相应地确定优先级。