UK AI Security Institute: Frontier Models Have Broken All Prior Trend Lines for Autonomous Cyber Capability

Apa yang terjadi

UK AI Security Institute (AISI), melakukan evaluasi pra-deployment atas nama pemerintah Inggris, menerbitkan penelitian independen pada 13 Mei 2026, menunjukkan bahwa Claude Mythos Preview dari Anthropic dan GPT-5.5 dari OpenAI telah secara substansial melampaui semua tren peramalan sebelumnya untuk penyelesaian tugas cyber otonom. AISI sebelumnya memperkirakan bahwa horizon waktu cyber keandalan 80% model frontier mengalami penggandaan sekitar setiap 5 bulan (turun dari penggandaan 8 bulan pada November 2025). Mythos Preview dan GPT-5.5 kini telah melampaui semua garis tren yang diukur: Mythos menjadi model pertama yang menyelesaikan kedua jangkauan cyber AISI (menyelesaikan serangan 32-langkah 'The Last Ones' dalam 6/10 percobaan dan menyelesaikan 'Cooling Tower' — sebelumnya tidak terpecahkan — dalam 3/10 percobaan). Penelitian independen dari METR mengkonfirmasi waktu penggandaan ~4 bulan sejak akhir 2024.

Mengapa penting

Laporan AISI menyediakan bukti yang didukung pemerintah dan kuantitatif bahwa kemampuan AI frontier sedang mengalami akselerasi lebih cepat dari yang diprediksi model sebelumnya. Pergeseran dari penggandaan 5 bulan menjadi 4 bulan (dan outperformance kedua Claude Mythos dan GPT-5.5 pada jangkauan cyber) menunjukkan diskontinuitas dalam penskalaan kemampuan. Ini secara langsung mendukung jendela 3–5 bulan yang dikutip oleh Palo Alto dan anggota parlemen: jika kompleksitas tugas cyber otonom mengalami penggandaan setiap 4–5 bulan, organisasi memiliki sekitar satu siklus penggandaan untuk memperkuat pertahanan sebelum model generasi saat ini dapat mengeksekusi serangan multitahap secara otonom. AISI sedang mengembangkan evaluasi yang lebih menuntut (jangkauan cyber baru, pertahanan cyber aktif) untuk mencerminkan kondisi dunia nyata, membangun baseline untuk benchmarking kemampuan di masa depan.

Tindakan yang diperlukan

CISOs harus menggunakan jendela 3–5 bulan sebagai horizon perencanaan untuk program akselerasi deteksi kerentanan dan patch. Bandingkan kecepatan triase kerentanan internal dan deployment patch terhadap tingkat model frontier yang mengidentifikasi cacat baru. Evaluasi apakah timeline patching saat ini (sering 30–60 hari) cukup mengingat kecepatan eksploitasi berbantuan AI. Pertimbangkan untuk mengadopsi arsitektur 'zero standing privilege' dan postur 'assume breach' yang mengurangi paparan bahkan ketika patch tertinggal.