ポジション：行動保証は安全性主張の検証ができない — ガバナンスが今要求するもの

何が起きたか

本ポジション・ペーパーは、行動保証方法（評価、レッドチーミング、システムカード）が認識論的に確立できない安全性特性の検証を求められていると主張している。2019年から2026年初期にかけて制定されたAIガバナンスフレームワークは「隠れた目的の不在、制御喪失の前兆への耐性、及び有界な壊滅的能力などの特性に関する検証可能な証拠」を要求しているが、現在の保証方法論は観察可能なモデル出力に限定されており、潜在表現や長期地平線的なエージェント行動を検証できない。著者らはこれを「監査ギャップ」として形式化している — 要求される検証アクセスと達成可能な検証アクセスの乖離 — そして「脆弱な保証」を証拠構造が主張される安全性主張を支持しない場合として導入している。21のガバナンス手段の分析（EU AI法第55条、カリフォルニアSB-53、シンガポールAI Verify、韓国AI基本法、その他を含む）を通じて、本論文は地政学的および産業的圧力が深い構造的検証よりも表面的な行動代理に報酬を与ける誘因勾配を特定している。著者らは法的文書における行動証拠の重みを制限し、機械的証拠クラス（線形プローブ、活性化パッチング、学習前後比較）との自発的な展開前アクセスを拡張することを提案している。プレプリント、査読なし。

なぜ重要か

フロンティアAIシステムがより多くのエージェント性と影響力を持つようになるにつれて、ガバナンスが要求するものと監査人が検証できるもの間のギャップは体系的な脆弱性を生み出す。行動評価に基づいて高リスクの安全性主張に依拠する規制当局と取締役会は、測定していると主張している特性を検出できない保証を受け入れているかもしれない — このような構造的リスクはモデルがスケールするにつれて増大する。

必要な対応

あなたのAIガバナンスフレームワークを見直して、行動テストで検証できる特性と機械的アクセスを要する特性を区別してください。コンプライアンス戦略が高い結果をもたらす主張（例えば、欺瞞の不在、有界な壊滅的能力）に対して行動評価に完全に依存している場合は、機械的解釈可能性方法で補足するか、証拠支援に合致するよう主張スコープを調整することを検討してください。