Definisi
Sistem penilaian formal yang menilai seberapa berbahaya jailbreak AI yang berhasil — mengukur faktor-faktor seperti seberapa jauh bypass keamanan terjadi, kemampuan berbahaya apa yang menjadi dapat diakses, seberapa mudah hal itu dapat diulangi, dan kerugian dunia nyata apa yang dapat terjadi. Gedung Putih dan Anthropic secara aktif mengembangkan versi benchmark pertama dari industri pemerintah.
Mengapa penting
Tanpa skala keparahan yang disepakati, pemerintah dan perusahaan tidak memiliki bahasa bersama untuk memutuskan kapan model AI terlalu berbahaya untuk diterapkan atau harus ditarik kembali — benchmark adalah fondasi dari setiap rezim tata kelola model AI yang kredibel.