Evaluasi Dunia Terbuka untuk Mengukur Kemampuan AI Frontier

Apa yang terjadi

Peneliti dari Princeton, Stanford HAI, dan kolaborator menerbitkan preprint di arXiv (2605.20520) pada 19 Mei 2026, mengusulkan 'evaluasi dunia terbuka' sebagai pelengkap penilaian kemampuan berbasis benchmark. Kerangka kerja menargetkan tugas-tugas jangka panjang, berantakan, dan dunia nyata yang dinilai melalui analisis kualitatif sampel kecil daripada otomasi skala benchmark. Makalah ini meninjau evaluasi dunia terbuka sebelumnya (misalnya, pembangunan kompiler C Carlini, manajemen toko kantor Anthropic), memperkenalkan CRUX (Collaborative Research for Updating AI eXpectations) sebagai proyek untuk melakukan evaluasi semacam itu secara teratur, dan melaporkan instansi pertama: memberi tugas agen AI untuk mengembangkan dan menerbitkan aplikasi iOS sederhana ke Apple App Store. Agen menyelesaikan tugas dengan hanya satu intervensi manual yang dapat dihindari, menunjukkan bahwa evaluasi dunia terbuka dapat memberikan peringatan dini tentang kemampuan berbulan-bulan sebelum benchmark mendeteksinya. Makalah ini mengakui keterbatasan — ukuran sampel satu, kurangnya standardisasi, kesulitan mereproduksi — tetapi berpendapat bahwa pertukaran ini diperlukan untuk menampilkan kemampuan yang muncul dan mengungkap titik buta dalam penilaian otomatis.

Mengapa penting

Skor benchmark mencampur kemampuan target dengan artefak lingkungan evaluasi — melebih-lebihkan ketika tugas mudah dioptimalkan atau bocor ke data pelatihan, meremehkan ketika agen gagal pada hambatan insidental (CAPTCHA, batas laju, elemen GUI yang rapuh) yang tidak terkait dengan kemampuan yang diuji. Seiring agen mengambil tugas yang semakin otonom dan jangka panjang, kebisingan dalam sinyal benchmark tumbuh. Evaluasi dunia terbuka memberikan peringatan dini tentang kemampuan yang mungkin segera menjadi tersebar luas, memberi institusi dan pembuat kebijakan waktu untuk membangun ketahanan sosial dan menginformasikan keputusan strategis tentang penerapan, regulasi, dan investasi. Kerangka kerja ini memformalkan praktik yang sudah muncul di berbagai laboratorium AI tetapi kekurangan metodologi bersama.

Tindakan yang diperlukan

Penilai harus menilai apakah penilaian kemampuan saat ini mengandalkan secara eksklusif pada benchmark dan mempertimbangkan untuk melakukan uji coba evaluasi dunia terbuka untuk domain berisiko tinggi (sistem otonom, generasi kode, perencanaan jangka panjang); tim kebijakan harus mencatat pertukaran antara reproduksibilitas dan sinyal peringatan dini saat merancang persyaratan evaluasi; organisasi penelitian harus meninjau metodologi CRUX untuk melakukan evaluasi semacam itu secara sistematis.