Laporan Strategis  ·  2026-06-25

AISI Engineering Playbook: Panduan Terbuka untuk Membangun Kemampuan Evaluasi AI

Laporan StrategisMedium dampakGlobal
UK AI Security Institute menerbitkan Engineering Playbook-nya pada 18 Juni 2026, membuka sumber infrastruktur evaluasi lengkap yang telah dikembangkannya untuk menilai model AI frontier. Playbook disusun di sekitar lima lapisan — Evaluate, Isolate, Connect, Run, dan Scale — dan mendokumentasikan metode, praktik, dan infrastruktur pendukung yang diperlukan untuk menjalankan evaluasi AI yang ketat dan dapat direproduksi dalam skala besar. AISI menggambarkannya sebagai 'sumber daya lengkap yang menangkap metode dan praktik yang telah kami kembangkan saat mengevaluasi sistem AI frontier,' secara eksplisit dimaksudkan untuk memungkinkan peneliti dan organisasi untuk 'membangun kemampuan evaluasi yang ketat tanpa memulai dari nol.' Rilis ini dibangun berdasarkan toolkit Inspect AI milik AISI (diadopsi oleh METR untuk evaluasi horizon waktu 228-tugas yang dirujuk dalam International AI Safety Report 2026, dan oleh Apollo Research setelah menghentikan kerangka kerja internal mereka) dan menyertai toolkit tersebut dengan dokumentasi infrastruktur yang mencakup sandboxing aman, proksi penyedia model, manajemen komputasi, dan inferensi skala superkomputer. Playbook tersedia gratis di engineering-playbook.aisi.org.uk.
Bagi organisasi apa pun — pemerintah, perusahaan, atau lembaga penelitian — yang berusaha menjalankan evaluasi independen kredibel dari model AI frontier, ini sekarang merupakan referensi terbuka yang berwibawa dari badan evaluasi AI pemerintah terkemuka di dunia; mengadopsinya mengurangi risiko desain program evaluasi dan menunjukkan keselarasan dengan standar internasional yang sedang berkembang.
Bagikan dengan tim keselamatan AI dan evaluasi Anda sebagai referensi dasar untuk program evaluasi model frontier internal apa pun; nilai lapisan infrastruktur mana dari lima lapisan (Evaluate, Isolate, Connect, Run, Scale) yang tidak dimiliki setup Anda saat ini dan prioritaskan sesuai kebutuhan.
Sumber
AISI — Releasing AISI's Engineering Playbook (blog / announcement)AISI Engineering Playbook — Full Guide
Lihat di umpan langsung Jelajahi temuan keamanan dan tata kelola AI terkait — diperbarui setiap pagi.
Buka umpan →