Posisi: Jaminan Perilaku Tidak Dapat Memverifikasi Klaim Keselamatan yang Sekarang Diminta oleh Tata Kelola

Apa yang terjadi

Makalah posisi ini berpendapat bahwa metode jaminan perilaku (evaluasi, red-teaming, kartu sistem) diminta untuk memverifikasi properti keselamatan yang tidak dapat mereka tetapkan secara epistemik. Kerangka kerja tata kelola AI yang diberlakukan antara 2019 dan awal 2026 memerlukan "bukti yang dapat ditinjau tentang properti seperti ketiadaan objektif tersembunyi, ketahanan terhadap prekursor kehilangan kontrol, dan kemampuan katastrofik yang terbatas," namun metodologi jaminan saat ini terbatas pada keluaran model yang dapat diamati dan tidak dapat memverifikasi representasi laten atau perilaku agensi horizon panjang. Para penulis memformalkan ini sebagai "kesenjangan audit" — perbedaan antara akses verifikasi yang diperlukan dan yang dapat dicapai — dan memperkenalkan "jaminan rapuh" untuk menggambarkan kasus di mana struktur bukti tidak mendukung klaim keselamatan yang dikemukakan. Melalui analisis 21 instrumen tata kelola (termasuk Pasal 55 EU AI Act, California SB-53, Singapore AI Verify, Korea Selatan AI Basic Act, dan lainnya), makalah ini mengidentifikasi gradien insentif di mana tekanan geopolitik dan industri memberi penghargaan kepada proxy perilaku tingkat permukaan daripada verifikasi struktural mendalam. Para penulis mengusulkan untuk membatasi bobot bukti perilaku dalam teks hukum dan memperluas akses pra-penerapan sukarela dengan kelas bukti mekanistik (linear probes, activation patching, perbandingan sebelum/sesudah-pelatihan). Preprint, belum diulas sejawat.

Mengapa penting

Ketika sistem AI frontier menjadi lebih agensi dan konsekuensial, kesenjangan antara apa yang dibutuhkan tata kelola dan apa yang dapat diverifikasi oleh auditor menciptakan kerentanan sistemik. Regulator dan dewan yang mengandalkan evaluasi perilaku untuk klaim keselamatan dengan risiko tinggi mungkin menerima jaminan yang tidak dapat mendeteksi properti yang diklaim untuk diukur — risiko struktural yang tumbuh seiring dengan penskalaan model.

Tindakan yang diperlukan

Tinjau kerangka kerja tata kelola AI Anda untuk membedakan antara properti yang dapat diverifikasi melalui pengujian perilaku dan properti yang memerlukan akses mekanistik. Jika strategi kepatuhan Anda sepenuhnya mengandalkan evaluasi perilaku untuk klaim berkonsekuensi tinggi (misalnya, ketiadaan penipuan, kemampuan katastrofik yang terbatas), pertimbangkan untuk melengkapi dengan metode interpretabilitas mekanistik atau sesuaikan cakupan klaim untuk sesuai dengan dukungan bukti.