Governance  ·  Glosarium

Jailbreak severity benchmark

Sistem penilaian formal yang menilai seberapa berbahaya jailbreak AI yang berhasil — mengukur faktor-faktor seperti seberapa jauh bypass keamanan terjadi, kemampuan berbahaya apa yang menjadi dapat diakses, seberapa mudah hal itu dapat diulangi, dan kerugian dunia nyata apa yang dapat terjadi. Gedung Putih dan Anthropic secara aktif mengembangkan versi benchmark pertama dari industri pemerintah.
Tanpa skala keparahan yang disepakati, pemerintah dan perusahaan tidak memiliki bahasa bersama untuk memutuskan kapan model AI terlalu berbahaya untuk diterapkan atau harus ditarik kembali — benchmark adalah fondasi dari setiap rezim tata kelola model AI yang kredibel.
Referensi
Politico: White House talks with Anthropic shift to setting AI security rules
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →