Evaluasi kami terhadap kemampuan cyber OpenAI GPT-5.5

Apa yang terjadi

UK AI Safety Institute mengevaluasi GPT-5.5 OpenAI pada tugas kemampuan cyber menggunakan latihan format capture-the-flag yang dirancang untuk menilai keterampilan penelitian kerentanan dan eksploitasi. GPT-5.5 adalah model kedua (setelah Claude Mythos Preview Anthropic) yang menyelesaikan simulasi serangan jaringan korporat AISI end-to-end—sebuah latihan multi-langkah yang diperkirakan membutuhkan waktu sekitar 20 jam untuk manusia. Hasil dari checkpoint awal menunjukkan GPT-5.5 mencapai tingkat performa cyber yang serupa dengan Claude Mythos, menunjukkan bahwa beberapa pengembang frontier berkumpul pada kemampuan cyber ofensif yang canggih.

Mengapa penting

Dua model frontier independen dari pengembang berbeda kini menunjukkan kemampuan intrusi cyber otonom end-to-end dalam pengujian terstruktur. Hal ini menunjukkan bahwa AI cyber ofensif yang canggih bukan lagi kemampuan sekali-sekali tetapi hasil yang dapat direproduksi di seluruh ekosistem lab frontier, memampatkan timeline bagi organisasi defensif untuk mempersiapkan serangan yang ditingkatkan AI.

Tindakan yang diperlukan

Kumpulkan tim red team dan pimpinan pertahanan cyber Anda untuk meninjau metodologi evaluasi AISI yang dipublikasikan dan menilai apakah model ancaman organisasi Anda memperhitungkan intrusi otonom multi-langkah. Perbarui playbook respons insiden untuk memasukkan skenario di mana penyerang memanfaatkan AI untuk reconnaissance, lateral movement, dan eksploitasi pada kecepatan mesin.