定义 一个正式的评分系统,用于评估成功的AI越狱有多危险——衡量因素包括安全绕过的程度、可访问的有害功能、重复的难易程度以及可能造成的现实伤害。白宫和Anthropic正在积极开发第一个政府-行业版本的此类基准。 影响分析没有商定的严重程度等级,政府和公司在决定何时AI模型过于危险而不能部署或必须召回时就没有共同的语言——该基准是任何可信AI模型治理制度的基础。