定義
成功したAIジェイルブレイクがどの程度危険かを評価する正式なスコアリングシステム。安全性バイパスがどの程度まで進んだか、どのような有害な機能がアクセス可能になったか、それがどの程度容易に繰り返されるか、どのような現実世界の害が生じる可能性があるかなどの要因を測定する。ホワイトハウスとAnthropicは、このようなベンチマークの最初の政府・業界版を積極的に開発している。
なぜ重要か
合意された重大度スケールがなければ、政府と企業はAIモデルが危険すぎてデプロイできない、または回収する必要があるのはいつかを判断するための共通言語を持たない。ベンチマークは、信頼できるAIモデルガバナンス体制の基礎である。