何が起きたか
プリンストン、スタンフォード HAI、および協力者からの研究者らが、2026年5月19日にarXiv (2605.20520)にプレプリントを公開し、ベンチマークベースの能力評価を補完するものとして「オープンワールド評価」を提案した。このフレームワークは、ベンチマークスケールの自動化ではなく、小規模サンプルの質的分析を通じて評価される長期間、複雑な実世界のタスクを対象としている。論文は以前のオープンワールド評価(例:CarliniのCコンパイラビルド、AnthropicのOffice shop management)を調査し、CRUX(Collaborative Research for Updating AI eXpectations)をそのような評価を定期的に実施するためのプロジェクトとして導入し、最初のインスタンスを報告している:AIエージェントにシンプルなiOSアプリケーションを開発してApple App Storeに公開させるタスクである。エージェントは回避可能な単一の手動介入のみで、このタスクを完了させ、オープンワールド評価はベンチマークが検出する数ヶ月前に能力についての早期警告を提供できることを示唆している。論文はサンプルサイズ1、標準化の欠如、再現の困難さなどの制限を認めているが、これらのトレードオフは創発的能力を表面化させ、自動採点における盲点を明らかにするために必要だと主張している。
なぜ重要か
ベンチマークスコアはターゲット能力を評価環境のアーティファクトと混同している——タスクが最適化しやすい場合または訓練データに漏洩している場合は過大評価し、エージェントがテストされた能力に関連のない付随的な障害(CAPTCHA、レート制限、脆弱なGUI要素)で失敗する場合は過小評価する。エージェントがより自律的で長期間のタスクを引き受けるにつれて、ベンチマーク信号のノイズが増加する。オープンワールド評価は、まもなく広く普及する可能性のある能力についての早期警告を提供し、機関およびポリシーメイカーに、展開、規制、投資に関する戦略的決定について社会的レジリエンスを構築し、情報を提供するための時間を与える。このフレームワークはすでにAIラボ全体で出現している実践を形式化しているが、共有された方法論が欠けている。
必要な対応
評価者は現在の能力評価がベンチマークのみに依存しているかどうかを評価し、高リスク領域(自律システム、コード生成、長期間計画)のオープンワールド評価のパイロットを検討する必要がある。ポリシーチームは、評価要件を設計する際に、再現性と早期警告信号間のトレードオフに注意する必要がある。研究機関は、そのような評価を体系的に実施するためのCRUX方法論を検討する必要がある。