Sandbox AI Agents Pemerintah Singapura: Indirect Prompt Injection yang Mengaktifkan RCE Dikonfirmasi sebagai Vektor Serangan Agentic Produksi Teratas

Penjelasan teknis

AI Agents Sandbox gabungan CSA Singapura, GovTech, IMDA, dan Google — sebuah studi empiris selama empat bulan tentang computer-use agents dalam alur kerja sektor publik yang sebenarnya, dipublikasikan 20 Mei 2026 — mengidentifikasi indirect prompt injection sebagai risiko keamanan siber paling menonjol, secara eksplisit mencatat kemampuan untuk memicu remote code execution (RCE). Temuan ini muncul dari pengujian computer-use agents dalam QA otomatis, pengujian keselamatan AI, dan alur kerja bantuan sosial terhadap layanan digital pemerintah. Sandbox mendokumentasikan bahwa agents yang berinteraksi dengan konten web, dokumen, atau keluaran sistem eksternal dapat dimanipulasi untuk melakukan tindakan yang tidak diinginkan — termasuk mengeksekusi kode arbitrer — melalui payload berbahaya yang tertanam dalam konten yang diproses agent daripada instruksi pengguna langsung.

Vektor serangan

Indirect prompt injection melalui konten lingkungan: aktor berbahaya menanamkan payload injeksi dalam halaman web, dokumen, respons API, atau konten eksternal apa pun yang diambil dan diproses agent. Agent, memperlakukan konten yang diambil sebagai konteks terpercaya, mengikuti instruksi yang tertanam. Dalam computer-use agents dengan akses ke perintah shell, eksekusi kode, atau operasi sistem file, jalur ini dapat mencapai RCE penuh tanpa interaksi pengguna langsung apa pun.

Sistem yang terdampak

Semua penerapan AI agentic di mana agents memproses konten eksternal (web browsing agents, document-processing agents, email agents, RAG-based agents, computer-use agents). Risiko sangat tinggi: agents dengan kemampuan tool-call yang mencakup shell execution, code interpreters, file write access, atau external API calls dengan ambient credentials.

Mitigasi

Mitigasi arsitektur: (1) Pisahkan secara ketat konten instruksional (dari system prompt dan input pengguna terpercaya) dari konten yang diambil/lingkungan — perlakukan semua konten eksternal sebagai data tidak terpercaya, bukan instruksi. (2) Implementasikan tool-call allowlists dengan izin minimum yang diperlukan; jangan pernah berikan akses ambient credential ke tools eksternal content retrieval. (3) Terapkan lapisan validasi output sebelum eksekusi tool-call apa pun dipicu oleh reasoning agent. (4) Catat semua tool calls dengan correlation IDs dan tandai pola instruksi anomali dalam konten yang diambil. (5) Uji semua penerapan agentic dengan indirect prompt injection test suites sebelum rilis produksi — perlakukan ini sebagai gerbang keamanan wajib, bukan langkah QA opsional.