Governance  ·  术语库

Jailbreak severity benchmark

一个正式的评分系统,用于评估成功的AI越狱有多危险——衡量因素包括安全绕过的程度、可访问的有害功能、重复的难易程度以及可能造成的现实伤害。白宫和Anthropic正在积极开发第一个政府-行业版本的此类基准。
没有商定的严重程度等级,政府和公司在决定何时AI模型过于危险而不能部署或必须召回时就没有共同的语言——该基准是任何可信AI模型治理制度的基础。
参考资料
Politico: White House talks with Anthropic shift to setting AI security rules
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →