BadBone — 休眠AI模型后门仅在提示学习定制后激活，规避了六项已发布的防御（arXiv 2605.31246）

技术说明

研究人员发表了BadBone，一个通过双层优化将恶意行为植入骨干模型（如ViT、CLIP）的后门攻击。后门需要两个条件的共同激活：受害者必须使用提示学习调整模型，并且特定触发器必须出现在输入中。在没有两个条件的情况下，被中毒的模型在行为上与干净的模型无法区分（攻击成功率0.10%）。一旦提示学习定制完成并出现触发器，攻击成功率接近99%。六项已发布的防御 — 神经清洁、ABS、MNTD、NAD、CLP、D-BR — 未能可靠地检测到后门，因为它们在预定制（休眠）状态中测试模型。攻击者不需要受害者的训练数据；具有相似内容的替代数据集就足够了。

攻击途径

攻击者通过公开存储库（如HuggingFace Hub）分发中毒的骨干模型。受害者下载并通过标准安全检查，返回干净结果。受害者为其下游任务执行提示学习定制。后门激活并以约99%的成功率将所有带有触发器的输入错误分类到攻击者选择的类别。

受影响系统

任何从未验证的存储库使用预训练骨干模型（ResNet、BiT-M-RN50、ViT、CLIP）并通过提示学习调整它们以用于计算机视觉或NLP中的下游任务的组织。在商业AI产品团队和下载公共基础模型的内部AI工作流程中风险特别高。

缓解措施

仅使用具有链式保管文档的验证、可追溯来源的模型源；在任何提示学习定制步骤后隔离并在隔离环境中测试骨干模型，然后再进行生产部署；实现跨任务行为异常分析（模型不应突然在多个下游任务中错误分类带有触发器的输入）。注意：根据研究，现有防御不足 — 将模型出处作为供应链控制，而不是扫描时控制。研究代码可在https://github.com/TrustAIRLab/BadBone上公开获取，供防御研究使用。