何が起きたか
複数の機関の研究チームが、AI セキュリティ政策が個々のフロンティアモデルへのアクセス制限から、システムレベルの能力評価へと関心をリダイレクトすべきだと主張するプレプリント(arXiv:2605.09504、ピアレビュー未済)を発表しました。論文は 2 つの実験を提示しています:(1) 5 つの 1.2 ビリオンパラメータモデルのスウォームが、GPT-4o に対するジェイルブレイク攻撃で 45.8% の有効害率を達成し、49 件の重大度が高い侵害を生み出し、(2) 同じモデルが脆弱な C アプリケーションに対する結合ソースコード分析とバイナリファジングを実行し、正規表現パターン検出と AddressSanitizer ベースのクラッシュ分類でスカフォルディングされた場合、コンシューマー MacBook 上で約 4 分間に 9 つの埋め込み CWE のうち 9 つすべての脆弱性を復旧しました(100% リコール)。中心的主張:「[モデルアクセス]制限を動機付ける攻撃機能は、主にモデルの周囲のスカフォルディングに存在し、商用ハードウェア上の小規模なオープンウェイトモデルで再現可能です。」
なぜ重要か
攻撃機能がオープンウェイトモデルと商用ハードウェアを使用して事実上ゼロコストで再現可能である場合、個々のフロンティアモデルへのアクセス制限は防御価値をほとんど提供しません。これは Anthropic の Mythos Preview のような制限付きリリースの根拠に異議を唱え、AI セキュリティ政策がモデルアクセス単独ではなく、システムアーキテクチャ、スカフォルディング技術、およびデプロイメントコンテキストに焦点を当てるべきことを示唆しています。プレプリント、ピアレビュー未済 — 知見を予備的ですが政策関連として扱います。
必要な対応
CISO と AI セキュリティリーダーは、フロンティアモデルまたはオープンウェイトモデルのいずれを使用しているかに関わらず、Q3 までにスカフォルディングベースの攻撃ベクトルについて内部セキュリティ態勢をレビューすべきです。