Google DeepMind Menerbitkan Taksonomi 'AI Agent Traps': Enam Kategori Serangan Terhadap Agen Otonom

Penjelasan teknis

Para peneliti Google DeepMind menerbitkan kerangka kerja sistematis pertama untuk memahami serangan berbasis web terhadap agen AI otonom. Makalah mengidentifikasi enam kategori 'AI Agent Traps': content injection, semantic manipulation, cognitive state corruption, data exfiltration, systemic attacks, dan human-in-the-loop manipulation. Tingkat keberhasilan serangan data exfiltration melebihi 80% di antara lima agen yang diuji.

Vektor serangan

Penyerang menanamkan instruksi berbahaya dalam komentar HTML, teks yang diposisikan CSS yang tidak terlihat, atau data citra steganografi. Instruksi-instruksi ini tidak terlihat oleh moderator manusia tetapi diproses oleh agen AI. RAG knowledge poisoning mencapai tingkat keberhasilan backdoor melebihi 80% dengan data poisoning kurang dari 0,1%.

Sistem yang terdampak

Semua agen AI otonom yang menjelajahi web, memproses dokumen eksternal, atau berinteraksi dengan sistem retrieval-augmented generation. Mencakup agen yang dibangun di atas GPT, Claude, Gemini, dan platform LLM utama lainnya.

Mitigasi

Implementasikan sanitisasi input untuk konten yang dikonsumsi agen, terapkan pertahanan runtime terhadap prompt injection, tetapkan kerangka kerja tata kelola konten, dan pertahankan pengawasan manusia untuk tindakan agen dengan risiko tinggi. Makalah merekomendasikan augmentasi data pelatihan untuk memperkuat model dasar.