脆弱性  ·  2026-04-14

大規模推論モデルが自律型攻撃者として97%の越獄成功率を達成

脆弱性High 影響度Not applicable (alignment/capability risk)
Nature Communicationsの研究では、4つの推論モデル(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)を9つのターゲットに対する自律型攻撃者としてテストし、97.14%の越獄成功率を発見しました。これにより、越獄は専門的な技術から安価でスケーラブルな攻撃へと変換されました。
推論モデルがターゲットレスポンスに基づいて越獄プロンプトを生成および反復する自律型マルチステッププロンプトエンジニアリング。
デプロイされているすべてのLLM。オープンウェイトモデルのエンタープライズデプロイメントはリスクが高まります。
攻撃者のフィードバックループを妨害するための偽のレスポンスを挿入するプロアクティブな防御(例えば、ProAct)。LLMソルティング。評価用の越獄蒸留。フロンティア推論モデルが攻撃者として利用されるのを防ぐためのアライメント作業。
出典
Nature Communications
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →