무슨 일이 있었나
Princeton, Stanford HAI의 연구자들과 협력자들은 2026년 5월 19일 arXiv (2605.20520)에 사전인쇄본을 발표했으며, 벤치마크 기반 역량 평가를 보완하기 위해 '오픈월드 평가'를 제안했다. 이 프레임워크는 벤치마크 규모 자동화가 아닌 소규모 정성적 분석을 통해 평가되는 장기간, 복잡한 실제 작업을 목표로 한다. 논문은 이전의 오픈월드 평가들(예: Carlini의 C 컴파일러 빌드, Anthropic의 사무실 상점 관리)을 조사하고, CRUX (Collaborative Research for Updating AI eXpectations)를 정기적으로 그러한 평가를 수행하기 위한 프로젝트로 소개하며, 첫 번째 사례를 보고한다: AI 에이전트에게 간단한 iOS 애플리케이션을 개발하여 Apple App Store에 출판하도록 하는 과제. 에이전트는 단 하나의 회피 가능한 수동 개입만으로 과제를 완료했으며, 이는 오픈월드 평가가 벤치마크가 탐지하기 몇 개월 전에 역량에 대한 조기 경고를 제공할 수 있음을 시사한다. 논문은 한계점들——샘플 크기 1개, 표준화 부재, 재현의 어려움——을 인정하지만, 이러한 트레이드오프가 긴급 역량을 표면화하고 자동화된 채점의 맹점을 드러내기 위해 필요하다고 주장한다.
왜 중요한가
벤치마크 점수는 목표 역량을 평가 환경의 결과물과 혼동한다——작업이 최적화하기 쉽거나 훈련 데이터로 유출될 때 과대평가하거나, 에이전트가 테스트된 역량과 무관한 우발적 장애물(CAPTCHA, 속도 제한, 취약한 GUI 요소)로 실패할 때 과소평가한다. 에이전트들이 점점 더 자율적이고 장기간의 작업을 맡게 되면서 벤치마크 신호의 노이즈가 증가한다. 오픈월드 평가는 곧 광범위하게 퍼질 수 있는 역량에 대한 조기 경고를 제공하여 기관과 정책입안자들에게 사회적 복원력을 구축하고 배포, 규제, 투자에 관한 전략적 결정을 내릴 시간을 준다. 이 프레임워크는 이미 AI 연구소 전반에서 나타나고 있지만 공유된 방법론이 부족한 관행을 형식화한다.
필요한 조치
평가자들은 현재의 역량 평가가 벤치마크에만 의존하는지 검토하고 고위험 도메인(자율 시스템, 코드 생성, 장기간 계획)에 대해 오픈월드 평가 시범을 고려해야 한다. 정책팀은 평가 요구사항을 설계할 때 재현성과 조기 경고 신호 사이의 트레이드오프를 주목해야 한다. 연구 조직은 그러한 평가를 체계적으로 수행하기 위한 CRUX 방법론을 검토해야 한다.