Definisi
Penilaian keselamatan dan kemampuan independen terhadap model AI yang dilakukan oleh organisasi eksternal sebelum model dirilis ke publik. Badan pengevaluasi diberikan akses awal ke model dan menjalankan tes terstruktur untuk mengidentifikasi kemampuan berbahaya (seperti membantu membuat senjata atau melaksanakan tugas otonomi di luar batas yang aman) dan untuk mengukur apakah kontrol keselamatan model benar-benar berfungsi.
Mengapa penting
Evaluasi pra-penerapan pihak ketiga dengan cepat menjadi harapan regulasi — ini sudah merupakan komitmen sukarela oleh lab-lab besar dan diwajibkan di bawah beberapa kerangka kerja yang sedang berkembang. Dewan seharusnya menanyakan apakah sistem AI yang mereka terapkan telah menjalani evaluasi semacam itu, dan apakah evaluasi tersebut dilakukan secara independen dari pengembang.