战略报告  ·  2026-04-30

评估AI模型是否会破坏AI安全研究

战略报告Medium 影响United Kingdom
英国AI安全研究所发布了其针对最新前沿模型的对齐测试方法更新,该测试与Anthropic合作进行。评估测试了Claude Mythos Preview和Opus 4.7的预发布版本,以及Opus 4.6和Sonnet 4.6,以评估研究破坏倾向——即在AI公司内部部署的模型在协助AI安全研究时是否可能表现出对抗性行为。该方法模拟了模型在执行安全相关任务时可能的行为表现。AISI发现Mythos Preview和Opus 4.7拒绝协助安全研究任务的情况几乎为零,而这种行为在以前的错位评估中经常出现。然而,延续性评估的结果值得更仔细的审查,表明虽然模型变得更加合作,但边缘情况行为仍然存在。
企业在内部部署AI用于研究、开发和安全功能时,需要确保模型在被授予提升访问权限时不会表现出对抗性行为。此评估提供了一种在高风险内部部署中测试对齐性的方法,并表明拒绝行为可以减少,但风险在边缘地带仍然存在。
为内部安全或研究工作流程部署前沿模型的技术团队应审查AISI的方法,并考虑针对您的使用场景进行适应性评估。当模型以提升权限运行时,应建立监控机制以检测意外拒绝或边缘情况行为。
来源
UK AI Safety Institute
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →