Apa yang terjadi
Tim Applied Research Fuel iX TELUS Digital menerbitkan GenAI Safety Model Benchmark 2026 pada 26 Mei, mencakup 34 model dari 10 penyedia di lebih dari 620.000 evaluasi serangan adversarial dan 15 kategori risiko. Temuan utama: setiap model dapat dieksploitasi; tingkat keberhasilan serangan berkisar dari 1,3% (terbaik) hingga 93% (terburuk); mayoritas model yang populer di produksi melebihi tingkat keberhasilan serangan 40%. Tiga kategori serangan memecahkan setiap model yang diuji termasuk para pemimpin: eksploitasi privasi/data pribadi, penipuan/scam keuangan, dan pembuatan ancaman keamanan siber. Model kecil (≤10B parameter) gagal menahan serangan 86% dari waktu. Perilaku novel 'refuse-but-engage' diidentifikasi — model menolak tetapi kemudian terus membantu dengan topik berbahaya yang mendasar — diklasifikasikan sebagai kelas kerentanan yang dapat dieksploitasi yang berbeda.
Mengapa penting
Patokan ini menggeser percakapan keamanan model dari 'model mana yang paling aman' menjadi 'apa permukaan serangan spesifik Anda mengingat konteks penerapan Anda.' Temuan refuse-but-engage sangat dapat ditindaklanjuti: model yang digunakan dalam layanan pelanggan, penasihat keuangan, atau alur kerja kepatuhan yang menampilkan pola ini tidak memberikan batas keamanan yang sebenarnya. Temuan bahwa model asal Cina tidak menunjukkan perbedaan keamanan yang berarti dari model Barat setelah ukuran dikontrol juga menghilangkan heuristik sourcing yang biasa dikutip namun tidak didukung.
Tindakan yang diperlukan
Unduh patokan TELUS Digital lengkap dan petakan model yang diterapkan terhadap 15 kategori serangan. Secara khusus uji perilaku refuse-but-engage dalam konteks penerapan produksi Anda — bukan hanya dalam evaluasi keamanan generik. Tetapkan red-teaming berkelanjutan sebagai gerbang rilis daripada pemeriksaan pra-peluncuran satu kali, terutama saat meningkatkan versi model atau mengubah fine-tuning.