Google DeepMind Memetakan Enam Kategori Perangkap Agen AI Berbasis Web

Apa yang terjadi

Peneliti Google DeepMind menerbitkan kerangka kerja sistematis pertama yang memetakan enam kategori serangan berbasis web terhadap agen AI otonom: injeksi konten, manipulasi semantik, keracunan status kognitif (memori), kontrol perilaku, serangan sistemik, dan perangkap manusia-dalam-loop.

Mengapa penting

Studi red-teaming menemukan setiap agen AI yang diuji berhasil dikompromikan setidaknya sekali. Kerangka kerja ini mengungkapkan serangan 'Dynamic Cloaking' di mana server berbahaya mendeteksi agen AI dan melayani konten berbeda dengan muatan injeksi-prompt tertanam yang tidak terlihat oleh pengunjung manusia.

Tindakan yang diperlukan

Tim keamanan yang menggunakan agen browsing web AI harus menerapkan penyaringan konten web khusus agen, obfuskasi user-agent, dan validasi output. Tinjau enam kategori serangan terhadap penerapan agen saat ini dan perbarui model ancaman sesuai kebutuhan.