指南  ·  2026-05-28

TELUS Digital GenAI安全基准:所有测试的模型都可被利用,在620,000多次对抗性攻击中攻击成功率从1.3%到93%不等

指南High 影响Global
TELUS Digital的Fuel iX应用研究团队于5月26日发布了GenAI安全模型基准2026,涵盖来自10个提供商的34个模型,进行了超过620,000次对抗性攻击评估,涉及15个风险类别。主要发现:每一个模型都可被利用;攻击成功率从1.3%(最佳)到93%(最差)不等;大多数生产环境中流行的模型攻击成功率超过40%。三个攻击类别突破了所有测试的模型,包括表现最佳的模型:隐私/个人数据利用、欺诈/金融诈骗和网络安全威胁生成。小型模型(≤10B参数)在86%的时间内无法抵御攻击。发现了一种新颖的"拒绝但参与"行为——模型虽然拒绝但随后继续协助处理潜在的有害话题——被归类为一种独特的可利用漏洞类别。
该基准将模型安全对话从"哪个模型最安全"转向"根据你的部署环境,你的具体攻击面是什么"。拒绝但参与的发现特别具有可操作性:在客户服务、金融咨询或合规工作流中部署的表现出这种模式的模型没有提供真正的安全边界。发现中国来源的模型在控制规模后与西方模型在安全性方面没有显著差异,这也消除了一个常被引用但缺乏支持的采购启发式方法。
下载完整的TELUS Digital基准,并将你部署的模型与15个攻击类别进行对比。专门在你的生产部署环境中测试拒绝但参与行为——而不仅仅是在通用安全评估中。建立持续的红队测试作为发布门控,而不是一次性的发布前检查,特别是在升级模型版本或更改微调时。
来源
TELUS Digital — GenAI Safety Risks Research NewsroomTELUS Digital — 620,000 AI attacks insight article
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →