Evaluasi Risiko Kebocoran Data dalam Agen LLM yang Menggunakan Alat dalam Skenario Realistis

Apa yang terjadi

Singapore AI Safety Institute (SG AISI) dan Korea AI Safety Institute (KR AISI) secara bersama menerbitkan pada 15 Juni 2026 evaluasi yang ketat (arXiv:2606.17114) tentang risiko kebocoran data dalam agen LLM yang menggunakan alat yang beroperasi dalam kondisi rutin tanpa adversarial. Kedua lembaga secara independen membangun pipeline pengujian — ReAct-style agent scaffolds, user yang disimulasikan model, lingkungan alat berbasis MCP, dan rubrik judge LLM spesifik tugas — kemudian menjalankan set umum 12 tugas realistis (onboarding karyawan, dukungan pelanggan, DevOps, otomasi web, produktivitas perusahaan) yang mencakup lima kategori risiko: kurangnya kesadaran data, kesadaran audiens, kepatuhan kebijakan, minimalisasi data, dan kesadaran batas akses. Temuan utama sangat jelas: di seluruh tiga agen yang diuji, 'tidak ada yang mencapai eksekusi yang sepenuhnya benar dan sepenuhnya aman di semua skenario,' dan 'penyelesaian tugas yang berhasil sering bertepatan dengan kegagalan penanganan data seperti mengakses informasi yang tidak perlu atau mengungkapkan informasi kepada penerima yang tidak sesuai.' Makalah menyimpulkan bahwa 'kebocoran data operasional adalah kekhawatiran keselamatan agen tingkat pertama yang berbeda dari eksfiltrasi adversarial' dan kemampuan serta keselamatan penanganan data harus dievaluasi secara terpisah. Catatan: preprint, belum peer-reviewed.

Mengapa penting

Ketika perusahaan menggelar agen LLM dengan akses ke email, CRM, repositori kode, dan database internal, evaluasi pemerintah-ke-pemerintah ini memberikan bukti sistematis pertama dari multi-lembaga bahwa bahkan penggunaan agen sehari-hari yang bersifat baik secara rutin mengalami kebocoran data sensitif — menjadikannya kasus empiris terkuat saat ini untuk standar penanganan data agen wajib sebelum penyebaran luas.

Tindakan yang diperlukan

Perlukan evaluasi keselamatan penanganan data — berbeda dari benchmark kemampuan — sebagai gerbang sebelum penyebaran agen perusahaan apa pun yang menyentuh data sensitif; tinjau izin agen saat ini terhadap lima kategori risiko yang diidentifikasi dalam makalah ini.