Sandbox AI Agents Pemerintah Singapura–Google: Indirect Prompt Injection Diidentifikasi sebagai Risiko Keamanan Siber Utama dalam Penerapan Agentic Produksi

Apa yang terjadi

Pada 20 Mei 2026, Cyber Security Agency (CSA) Singapura, GovTech Singapore, IMDA, dan Google menerbitkan temuan dari Sandbox AI Agents pertama di dunia yang dilakukan selama sekitar empat bulan sejak Agustus 2025. Sandbox menguji computer-use agents di tiga use case sektor publik nyata: quality assurance otomatis layanan digital pemerintah, pengujian keamanan AI chatbot yang telah diterapkan, dan panduan aplikasi bantuan sosial. Di semua use case, risiko keamanan siber paling menonjol yang diidentifikasi adalah indirect prompt injection — khususnya, risiko bahwa agent dapat ditipu untuk melakukan tindakan yang tidak diinginkan termasuk remote code execution (RCE) melalui konten berbahaya yang ditemuinya di lingkungannya. Laporan juga mengidentifikasi kalibrasi pengawasan manusia, perlindungan data selama interaksi agent-data, dan kustomisasi agent pihak ketiga sebagai tema risiko utama. Laporan merekomendasikan pengawasan manusia berbasis risiko (pre-approval untuk risiko tinggi, post-hoc review untuk risiko rendah yang reversibel), safeguard terdistribusi di seluruh lapisan platform, organisasi, dan pengguna, serta penerapan inkremental yang terkontrol.

Mengapa penting

Ini adalah studi empiris pertama yang disponsori pemerintah yang mengkonfirmasi bahwa indirect prompt injection → RCE adalah risiko produksi dunia nyata dalam sistem agentic, bukan sekadar kekhawatiran teoretis. Temuan ini membawa bobot praktis yang kuat: ini bukan latihan red-team terhadap sistem yang diperkuat tetapi alur kerja sektor publik nyata yang menjalankan computer-use agents. Endorsement multi-agensi Singapura (CSA + GovTech + IMDA) menandakan bahwa pertahanan prompt-injection akan menjadi baseline yang diharapkan dalam pengadaan AI pemerintah Singapura dan, secara perluasan, sertifikasi vendor seperti kerangka AI Verify.

Tindakan yang diperlukan

Perlakukan indirect prompt injection sebagai kasus uji wajib untuk setiap penerapan agentic — terutama computer-use agents yang menjelajahi web, membaca email, atau memproses dokumen dari sumber eksternal. Tambahkan pengujian prompt injection jalur RCE ke daftar periksa review keamanan pra-penerapan. Evaluasi apakah lapisan orkestrasi agent Anda memisahkan konten instruksional dari konten yang diambil/eksternal, dan apakah output tool-call diperlakukan sebagai input yang tidak dipercaya.