米国議員がジェイルブレイクされたAIモデルが数秒で詳細な攻撃計画を生成することについて説明を受ける

技術的な説明

DHS National Counterterrorism Innovation, Technology and Education Center (NCITE)と下院国土安全保障委員会は、ジェイルブレイク(「abliterated」)されたAIモデルを議員に示し、安全ガードレール除去によりモデルが3秒以内に攻撃の段階的指示を生成できることを実証した。検閲されたモデルが拒否した場合、モデルは誘拐、爆弾、大量傷害事件に関する詳細なガイダンスを提供した。複数の米国および外国モデルが実証されたが、名前は伏せられた。

攻撃経路

Abliteration(拒否メカニズムの無効化)またはプロンプトエンジニアリング(制限されたクエリを密度の高い学術言語に埋め込む)を介したジェイルブレイクは安全層を回避する。脅威行為者はabliteratedモデルを以下に使用できる:(1)詳細な攻撃計画を生成、(2)マルウェアとエクスプロイトコードを作成、(3)ソーシャルエンジニアリングキャンペーンを構築、(4)偵察を自動化。ロシア関連グループはLLMを偽情報に流用し、北京系グループは自動化されたサイバー攻撃のためClaudeを武装化しようとした。

影響を受けるシステム

安全ガードレール搭載のすべての主要LLMはジェイルブレイク技術に対して脆弱である。Abliteratedモデル(公開されているオープンウェイト亜種)は最高のリスクを提示する。実行時フィルタリングなしプロバイダー側安全制御のみに依存するエンタープライズデプロイメントはリスク曝露に直面する。

緩和策

多層防御を実装する:(1)モデル層制御から独立した実行時コンテンツフィルタリングを配置、(2)ジェイルブレイク試行パターン(異常な表現、ロールプレイプロンプト、エンコードされた指示)を監視、(3)エンタープライズ環境でオープンウェイトモデルへのアクセスを制限、(4)セキュリティ分析のためすべてのLLMクエリをログ、(5)モデル機能に最小権限原則を適用(非技術的使用例でコード実行、ウェブアクセスを無効化)。フロリダAGはChatGPT インタラクションに関連したFSU shooting後、OpenAIの刑事捜査を拡大した。