Governance  ·  用語集

Pre-deployment AI evaluation (third-party)

公開前に外部組織によって実施されるAIモデルの独立した安全性と能力評価。評価機関はモデルへの早期アクセスを取得し、危険な能力(武器製造支援や安全な範囲を超えた自律的タスク実行など)を特定し、モデルの安全制御が実際に機能しているかを測定するための構造化テストを実施する。
第三者による展開前評価は急速に規制上の期待値となりつつあり、すでに大手ラボによる自発的なコミットメントであり、新興フレームワークの一部では必須要件である。ボードは、展開するAIシステムがそのような評価を受けたかどうか、またそれらの評価が開発者から独立して実施されたかどうかを確認すべきである。
参考資料
METR — Summary of Predeployment Evaluation of GPT-5.6 SolAISI Engineering Playbook: An Open Guide to Building AI Evaluation Capabilities
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →