BadBone — Pintu Belakang Model AI Dormant yang Aktif Setelah Kustomisasi Prompt-Learning, Mengindari Enam Pertahanan Publikasi (arXiv 2605.31246)

Penjelasan teknis

Peneliti menerbitkan BadBone, serangan pintu belakang yang menanamkan perilaku berbahaya ke dalam model backbone (misalnya ViT, CLIP) menggunakan optimisasi bi-level. Pintu belakang memerlukan ko-aktivasi dua kondisi: korban harus mengadaptasi model menggunakan prompt learning, dan trigger spesifik harus muncul dalam input. Tanpa kedua kondisi, model yang terkontaminasi tidak dapat dibedakan secara perilaku dari yang bersih (tingkat keberhasilan serangan 0,10%). Setelah kustomisasi prompt-learning selesai dan trigger muncul, keberhasilan serangan mendekati 99%. Enam pertahanan publikasi — Neural Cleanse, ABS, MNTD, NAD, CLP, D-BR — gagal mendeteksi pintu belakang secara andal karena mereka menguji model dalam keadaan pra-kustomisasi (dormant). Penyerang tidak memerlukan data pelatihan korban; dataset pengganti dengan konten serupa sudah cukup.

Vektor serangan

Penyerang mendistribusikan model backbone yang terkontaminasi melalui repositori publik (misalnya HuggingFace Hub). Korban mengunduh dan melewati pemeriksaan keamanan standar, yang mengembalikan hasil bersih. Korban melakukan kustomisasi prompt-learning untuk tugas hilir mereka. Pintu belakang aktif dan salah mengklasifikasi semua input yang mengandung trigger ke kelas pilihan penyerang dengan tingkat keberhasilan ~99%.

Sistem yang terdampak

Organisasi mana pun yang menggunakan model backbone pra-terlatih (ResNet, BiT-M-RN50, ViT, CLIP) dari repositori yang tidak diverifikasi dan mengadaptasinya melalui prompt learning untuk tugas hilir dalam visi komputer atau NLP. Risiko sangat tinggi pada tim produk AI komersial dan alur kerja AI internal yang mengunduh model foundation publik.

Mitigasi

Gunakan hanya sumber model terverifikasi dan terlacak provenance dengan dokumentasi chain-of-custody; karantina dan uji model backbone di lingkungan terisolasi setelah langkah kustomisasi prompt-learning apa pun sebelum penerapan produksi; implementasikan analisis anomali perilaku lintas-tugas (model tidak boleh tiba-tiba salah mengklasifikasi input yang mengandung trigger di berbagai tugas hilir). Catatan: pertahanan yang ada tidak memadai menurut penelitian — perlakukan provenance model sebagai kontrol rantai pasokan, bukan kontrol waktu pemindaian. Kode penelitian tersedia untuk umum di https://github.com/TrustAIRLab/BadBone untuk penelitian defensif.