漏洞  ·  2026-06-04

BadBone — 休眠AI模型后门仅在提示学习定制后激活,规避了六项已发布的防御(arXiv 2605.31246)

漏洞High 影响Global
研究人员发表了BadBone,一个通过双层优化将恶意行为植入骨干模型(如ViT、CLIP)的后门攻击。后门需要两个条件的共同激活:受害者必须使用提示学习调整模型,并且特定触发器必须出现在输入中。在没有两个条件的情况下,被中毒的模型在行为上与干净的模型无法区分(攻击成功率0.10%)。一旦提示学习定制完成并出现触发器,攻击成功率接近99%。六项已发布的防御 — 神经清洁、ABS、MNTD、NAD、CLP、D-BR — 未能可靠地检测到后门,因为它们在预定制(休眠)状态中测试模型。攻击者不需要受害者的训练数据;具有相似内容的替代数据集就足够了。
攻击者通过公开存储库(如HuggingFace Hub)分发中毒的骨干模型。受害者下载并通过标准安全检查,返回干净结果。受害者为其下游任务执行提示学习定制。后门激活并以约99%的成功率将所有带有触发器的输入错误分类到攻击者选择的类别。
任何从未验证的存储库使用预训练骨干模型(ResNet、BiT-M-RN50、ViT、CLIP)并通过提示学习调整它们以用于计算机视觉或NLP中的下游任务的组织。在商业AI产品团队和下载公共基础模型的内部AI工作流程中风险特别高。
仅使用具有链式保管文档的验证、可追溯来源的模型源;在任何提示学习定制步骤后隔离并在隔离环境中测试骨干模型,然后再进行生产部署;实现跨任务行为异常分析(模型不应突然在多个下游任务中错误分类带有触发器的输入)。注意:根据研究,现有防御不足 — 将模型出处作为供应链控制,而不是扫描时控制。研究代码可在https://github.com/TrustAIRLab/BadBone上公开获取,供防御研究使用。
来源
arXiv 2605.31246 — BadBone: Backdoor Attacks Against Backbone Models in Visual Prompt LearningHelp Net Security — This AI model backdoor attack stays hidden until you customize the model
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →