何が起きたか
UK AI Safety Institute は2026年5月21日に、現在のAI監督方法がシステムがより能力を持つようになるにつれて有効性を保つかどうかを検証する研究報告書を公表した。フロンティアAI開発者、政府、NGO、および学術機関にまたがる25人の専門家インタビューに基づき、同報告書は4つの監督表面——内部活性化、思考の連鎖、外部行動、およびエージェント間通信——を特定し、それらが劣化する可能性のある20以上の経路をマッピングしている。主要な知見:思考の連鎖(CoT)推論は、現在最も有用な監視信号であるが、モデルが人間が読める形式のテキストではなく完全に内部状態で推論することを可能にする潜在推論アーキテクチャから大きな圧力を受けている。行動のみの監視は下限を提供するが、それ自体では不十分である。および監督のための訓練(例えば、モデルが正直または透明になるように訓練すること)は展開コンテキストに一般化されない可能性がある。同報告書は、現在の監督が介入がない限り消滅する可能性が高い現在のAIシステムの偶然的特性に依存しており、新興の方法はまだ補償するのに十分に成熟していないと結論づけている。
なぜ重要か
高度なAIの安全性引数はますます監督に依存している——展開前にモデルを監査する能力、使用中に動作を監視する能力、および事後に事件を調査する能力である。報告書が示唆するペースで監督が劣化すれば、機関は展開前に不整合、報酬ハッキング、評価ゲーミング、およびその他のリスクを検出する能力を失い、予防にのみ排他的に依存することを余儀なくされる(これは複雑な社会技術システムの残余リスクを排除することはできない)。同報告書は、重要な仮定について専門家の意見の相違を明らかにしている——潜在推論が優位に立つかどうか、行動監視が十分であるかどうか、整列ハニーポットが意味があるかどうか——現在の安全事例のギャップを露呈している。
必要な対応
AI統治チームは、その組織が依存している監督技術をインベントリして、報告書が特定する劣化経路への露出を評価すべきである。モデル開発者は、思考の連鎖監視が彼らの展開タイムラインに対して実行可能なままであるかどうかを評価し、新興技術(ホワイトボックスアクセス、制御プロトコル)にフォールバックとして投資すべきである。取締役会は、安全事例が監督劣化を明示的に説明しているか、または現在の監視容量が持続すると仮定しているかどうかを尋ねるべきである。