Governance  ·  用語集

AI model security flaw disclosure framework

ホワイトハウスとAnthropicの間で現在交渉中の構造化プロセス。AI モデルの脆弱性(安全性制御を回避するジェイルブレイクなど)がどのように発見、スコア化、報告、および修復されるべきかを定義しており、従来のソフトウェアのソフトウェア脆弱性開示の仕組みと同様である。
合意されたルールがなければ、AI ラボと政府は危険なモデル欠陥に対処するための共通の手順を持たない。その結果、その場しのぎのシャットダウン、輸出禁止、および矛盾した対応につながる。正式なフレームワークは、予測可能で協調的な AI セキュリティ統治の前提条件である。
参考資料
Politico: White House–Anthropic AI security rules negotiations
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →