BadBone — プロンプト学習カスタマイズ後に起動する潜伏型AIモデルバックドア、6つの公開防御を回避 (arXiv 2605.31246)

技術的な説明

研究者らがBadBoneを発表しました。これはバックボーンモデル(例：ViT、CLIP)に悪意のある動作を植え付けるバックドア攻撃で、二段階最適化を使用します。このバックドアは2つの条件の同時発動が必要です。被害者がプロンプト学習を使用してモデルを適応させ、かつ特定のトリガーが入力に現れることです。両方の条件がない場合、毒されたモデルはクリーンなモデルと動作が見分けられません(攻撃成功率0.10%)。プロンプト学習カスタマイズが完了してトリガーが現れると、攻撃成功率は99%に近づきます。Neural Cleanse、ABS、MNTD、NAD、CLP、D-BRという6つの公開防御は、カスタマイズ前(潜伏状態)でモデルをテストするため、バックドアを確実に検出できませんでした。攻撃者は被害者の学習データを必要としません。類似コンテンツを持つ代替データセットで十分です。

攻撃経路

攻撃者は毒されたバックボーンモデルをパブリックリポジトリ(例：HuggingFace Hub)経由で配布します。被害者がダウンロードして標準セキュリティチェックを実行すると、クリーンという結果が返されます。被害者が下流タスク用にプロンプト学習カスタマイズを実行します。バックドアが起動し、トリガー付きのすべての入力を攻撃者が選択したクラスに約99%の成功率で誤分類します。

影響を受けるシステム

未検証リポジトリから事前学習済みバックボーンモデル(ResNet、BiT-M-RN50、ViT、CLIP)を使用し、コンピュータビジョンまたはNLPの下流タスク用にプロンプト学習で適応させるあらゆる組織。商用AIプロダクトチームとパブリック基盤モデルをダウンロードする内部AIワークフローでは特に高リスクです。

緩和策

検証済みで出所追跡可能なモデルソースのみを使用し、チェーン・オブ・カストディドキュメンテーションを備えています。バックボーンモデルは任意のプロンプト学習カスタマイズ後、本番環境展開前に隔離環境でテストしてください。クロスタスク動作異常分析を実装してください(モデルが複数の下流タスク全体でトリガー付き入力を突然誤分類しないようにする)。注意：研究によると既存の防御は不十分です — モデル出所をスキャン時制御ではなくサプライチェーン制御として扱ってください。防御研究用の研究コードは https://github.com/TrustAIRLab/BadBone で公開されています。