大規模推論モデルが自律型攻撃者として97%の越獄成功率を達成

技術的な説明

Nature Communicationsの研究では、4つの推論モデル(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)を9つのターゲットに対する自律型攻撃者としてテストし、97.14%の越獄成功率を発見しました。これにより、越獄は専門的な技術から安価でスケーラブルな攻撃へと変換されました。

攻撃経路

推論モデルがターゲットレスポンスに基づいて越獄プロンプトを生成および反復する自律型マルチステッププロンプトエンジニアリング。

影響を受けるシステム

デプロイされているすべてのLLM。オープンウェイトモデルのエンタープライズデプロイメントはリスクが高まります。

緩和策

攻撃者のフィードバックループを妨害するための偽のレスポンスを挿入するプロアクティブな防御(例えば、ProAct)。LLMソルティング。評価用の越獄蒸留。フロンティア推論モデルが攻撃者として利用されるのを防ぐためのアライメント作業。