BadBone — 프롬프트 학습 커스터마이제이션 후에만 활성화되는 휴면 AI 모델 백도어, 6가지 공개 방어책 회피 (arXiv 2605.31246)

기술 설명

연구자들은 BadBone을 발표했으며, 이는 양단계 최적화를 사용하여 백본 모델(예: ViT, CLIP)에 악의적인 행동을 심는 백도어 공격입니다. 백도어는 두 가지 조건의 동시 활성화가 필요합니다: 피해자가 프롬프트 학습을 사용하여 모델을 적응시켜야 하고, 특정 트리거가 입력에 나타나야 합니다. 두 조건이 모두 없으면, 중독된 모델은 깨끗한 모델과 행동상 구별할 수 없습니다(공격 성공률 0.10%). 프롬프트 학습 커스터마이제이션이 완료되고 트리거가 나타나면, 공격 성공률은 99%에 가까워집니다. 6가지 공개 방어책 — Neural Cleanse, ABS, MNTD, NAD, CLP, D-BR — 은 커스터마이제이션 전(휴면) 상태에서 모델을 테스트하기 때문에 백도어를 안정적으로 탐지하지 못했습니다. 공격자는 피해자의 훈련 데이터가 필요하지 않으며, 유사한 콘텐츠를 가진 대체 데이터셋으로 충분합니다.

공격 경로

공격자가 중독된 백본 모델을 공개 저장소(예: HuggingFace Hub)를 통해 배포합니다. 피해자가 다운로드하고 표준 보안 검사를 통과하며, 이는 깨끗한 결과를 반환합니다. 피해자가 다운스트림 작업을 위해 프롬프트 학습 커스터마이제이션을 수행합니다. 백도어가 활성화되고 트리거를 포함한 모든 입력을 공격자가 선택한 클래스로 ~99% 성공률로 잘못 분류합니다.

영향받는 시스템

검증되지 않은 저장소에서 사전 훈련된 백본 모델(ResNet, BiT-M-RN50, ViT, CLIP)을 사용하고 컴퓨터 비전 또는 NLP의 다운스트림 작업을 위해 프롬프트 학습을 통해 적응시키는 모든 조직. 공개 기초 모델을 다운로드하는 상용 AI 제품 팀과 내부 AI 워크플로우에서 특히 높은 위험입니다.

완화 방안

보증 추적 및 관리 문서가 있는 검증된 출처의 모델만 사용하십시오. 프롬프트 학습 커스터마이제이션 단계 후 프로덕션 배포 전에 격리된 환경에서 백본 모델을 격리하고 테스트하십시오. 교차 작업 행동 이상 분석을 구현하십시오(모델은 여러 다운스트림 작업에서 갑자기 트리거를 포함한 입력을 잘못 분류하면 안 됩니다). 참고: 연구에 따르면 기존 방어책은 불충분하므로 — 모델 출처를 스캔 시간 제어가 아닌 공급망 제어로 취급하십시오. 연구 코드는 방어 연구를 위해 https://github.com/TrustAIRLab/BadBone에서 공개적으로 사용 가능합니다.