Apa yang terjadi
Peneliti RAND mengusulkan kerangka kerja evaluasi proporsional (PE) yang disesuaikan dengan model AI berbobot terbuka, yang memperkenalkan faktor risiko yang berbeda dan tidak ditangani oleh praktik evaluasi yang dirancang untuk penyebaran berbobot tertutup. Para penulis secara sistematis meninjau praktik evaluasi untuk 37 keluarga model berbobot terbuka yang dirilis antara 2025 dan April 2026, menemukan bahwa hanya satu yang memenuhi keempat kriteria PE (PE1-4) dan sebagian besar tidak memenuhi salah satu pun. Kerangka kerja ini mengatasi kesenjangan antara norma evaluasi saat ini—yang mengasumsikan penyebaran terkontrol—dan realitas model berbobot terbuka yang dapat disesuaikan, dikuantisasi, dan digunakan tanpa pengawasan.
Mengapa penting
Model berbobot terbuka sedang berkembang pesat (37 keluarga dalam ~16 bulan) tetapi kekurangan standar evaluasi yang proporsional dengan risiko unik mereka. Organisasi yang membangun di atas atau menggunakan model berbobot terbuka menghadapi kesenjangan evaluasi: tolok ukur yang ada tidak menilai risiko pasca-rilis seperti penyesuaian untuk tugas berbahaya atau penyebaran berskala besar oleh pemain non-ahli. Kerangka kerja ini menyediakan dasar terstruktur untuk keputusan kebijakan dan pengadaan.
Tindakan yang diperlukan
Jika organisasi Anda menggunakan atau berencana menggunakan model berbobot terbuka, bandingkan model tersebut dengan kriteria PE1-4 RAND untuk mengidentifikasi kesenjangan evaluasi. Diskusikan dengan tim tata kelola AI Anda apakah proses pemilihan vendor dan penilaian risiko Anda memperhitungkan risiko pasca-penyebaran yang spesifik terhadap arsitektur berbobot terbuka.