AISI Engineering Playbook: Panduan Terbuka untuk Membangun Kemampuan Evaluasi AI

Apa yang terjadi

UK AI Security Institute menerbitkan Engineering Playbook-nya pada 18 Juni 2026, membuka sumber infrastruktur evaluasi lengkap yang telah dikembangkannya untuk menilai model AI frontier. Playbook disusun di sekitar lima lapisan — Evaluate, Isolate, Connect, Run, dan Scale — dan mendokumentasikan metode, praktik, dan infrastruktur pendukung yang diperlukan untuk menjalankan evaluasi AI yang ketat dan dapat direproduksi dalam skala besar. AISI menggambarkannya sebagai 'sumber daya lengkap yang menangkap metode dan praktik yang telah kami kembangkan saat mengevaluasi sistem AI frontier,' secara eksplisit dimaksudkan untuk memungkinkan peneliti dan organisasi untuk 'membangun kemampuan evaluasi yang ketat tanpa memulai dari nol.' Rilis ini dibangun berdasarkan toolkit Inspect AI milik AISI (diadopsi oleh METR untuk evaluasi horizon waktu 228-tugas yang dirujuk dalam International AI Safety Report 2026, dan oleh Apollo Research setelah menghentikan kerangka kerja internal mereka) dan menyertai toolkit tersebut dengan dokumentasi infrastruktur yang mencakup sandboxing aman, proksi penyedia model, manajemen komputasi, dan inferensi skala superkomputer. Playbook tersedia gratis di engineering-playbook.aisi.org.uk.

Mengapa penting

Bagi organisasi apa pun — pemerintah, perusahaan, atau lembaga penelitian — yang berusaha menjalankan evaluasi independen kredibel dari model AI frontier, ini sekarang merupakan referensi terbuka yang berwibawa dari badan evaluasi AI pemerintah terkemuka di dunia; mengadopsinya mengurangi risiko desain program evaluasi dan menunjukkan keselarasan dengan standar internasional yang sedang berkembang.

Tindakan yang diperlukan

Bagikan dengan tim keselamatan AI dan evaluasi Anda sebagai referensi dasar untuk program evaluasi model frontier internal apa pun; nilai lapisan infrastruktur mana dari lima lapisan (Evaluate, Isolate, Connect, Run, Scale) yang tidak dimiliki setup Anda saat ini dan prioritaskan sesuai kebutuhan.