Governance  ·  用語集

Jailbreak severity benchmark

成功したAIジェイルブレイクがどの程度危険かを評価する正式なスコアリングシステム。安全性バイパスがどの程度まで進んだか、どのような有害な機能がアクセス可能になったか、それがどの程度容易に繰り返されるか、どのような現実世界の害が生じる可能性があるかなどの要因を測定する。ホワイトハウスとAnthropicは、このようなベンチマークの最初の政府・業界版を積極的に開発している。
合意された重大度スケールがなければ、政府と企業はAIモデルが危険すぎてデプロイできない、または回収する必要があるのはいつかを判断するための共通言語を持たない。ベンチマークは、信頼できるAIモデルガバナンス体制の基礎である。
参考資料
Politico: White House talks with Anthropic shift to setting AI security rules
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →