技术说明
DHS National Counterterrorism Innovation, Technology and Education Center (NCITE)和House Homeland Security Committee向立法者演示了越狱('abliterated')AI模型,展示了移除安全护栏如何使模型能够在三秒内生成逐步攻击指令。当经过审查的模型拒绝时,这些模型提供了关于绑架、爆炸和大规模伤亡事件的详细指导。演示了多个美国和外国模型,但未公布名称。
攻击途径
通过abliteration(停用拒绝机制)或提示工程(将受限查询埋藏在密集的学术语言中)进行越狱可绕过安全层。威胁行为者可以使用abliterated模型:(1)生成详细攻击计划,(2)创建恶意软件和漏洞利用代码,(3)制作社会工程攻击活动,(4)自动化侦察。与俄罗斯有关的组织劫持了LLM用于虚假信息传播;北京支持的行为者试图武器化Claude进行自动化网络攻击。
受影响系统
所有具有安全护栏的主要LLM都容易受到越狱技术攻击。Abliterated模型(公开可用的开放权重变体)风险最高。仅依赖提供商端安全控制而没有运行时过滤的企业部署面临暴露风险。
缓解措施
实施深度防御:(1)部署独立于模型层控制的运行时内容过滤,(2)监控越狱尝试模式(异常措辞、角色扮演提示、编码指令),(3)在企业环境中限制对开放权重模型的访问,(4)记录所有LLM查询用于安全分析,(5)对模型功能应用最小权限原则(对非技术用例禁用代码执行、网络访问)。Florida AG在FSU枪击事件与ChatGPT互动相关联后扩大了对OpenAI的刑事调查。