何が起きたか
英国AI Security InstituteはEngineering Playbookを2026年6月18日に発表しました。フロンティアAIモデルを評価するために開発した完全なエバリュエーションインフラストラクチャスタックをオープンソースとして公開しています。Playbookは5つのレイヤー――Evaluate、Isolate、Connect、Run、Scale――を中心に構成されており、規制された再現可能なAIエバリュエーションを大規模で実行するために必要な方法、実践、およびサポートインフラストラクチャを文書化しています。AISIはこれを「フロンティアAIシステムの評価中に開発した方法と実践を捉えた完全なリソース」と説明し、研究者および組織が「ゼロから開始することなく規制されたエバリュエーション能力を構築する」ことができることを明確に意図しています。このリリースはAISIのInspect AIツールキット(International AI Safety Report 2026で引用されているMETRの228タスク時間軸エバリュエーションで採用され、内部フレームワークをdeprecateした後Apollo Researchで採用された)に基づいており、セキュアサンドボックシング、モデルプロバイダープロキシング、コンピュート管理、およびスーパーコンピュータ規模推論をカバーするインフラストラクチャドキュメンテーションを伴っています。Playbookはengineering-playbook.aisi.org.ukで自由に利用可能です。
なぜ重要か
フロンティアAIモデルの信頼できる独立エバリュエーションを実行しようとしている組織――政府、企業、または研究機関――にとって、これは現在、世界をリードする政府AIエバリュエーション機関からの権威あるオープンリファレンスです。これを採用することはエバリュエーションプログラム設計のリスクを軽減し、出現しつつある国際標準との整合性を示します。
必要な対応
AIセーフティおよびエバリュエーションチームと共有し、内部フロンティアモデルエバリュエーションプログラムの基準リファレンスとしてください。5つのインフラストラクチャレイヤー(Evaluate、Isolate、Connect、Run、Scale)のうち、現在のセットアップが欠けているものを評価し、それに応じて優先順位を付けてください。