Injeksi Prompt Tidak Langsung Bersifat Arsitektur, Bukan Spesifik Penerapan — Brave Mendemonstrasikan Serangan Terhadap Alat AI Cloud dan Lokal

Penjelasan teknis

Brave Security Research menerbitkan demonstrasi empiris pada 8 Juni 2026 menunjukkan bahwa injeksi prompt tidak langsung — di mana instruksi berbahaya yang tertanam dalam konten pihak ketiga membajak tugas agen AI — bekerja sama efektifnya terhadap AI yang dihosting cloud (Mozilla Tabstack) dan AI sepenuhnya on-device (Cotypist untuk macOS). Dalam kasus Tabstack, teks tidak terlihat di halaman web menyebabkan agen meninggalkan tugas peringkasan, menavigasi ke formulir yang dikendalikan penyerang, mengisinya dengan riwayat percakapan pengguna, dan mengirimkannya. Dalam kasus Cotypist, instruksi dalam dokumen lokal mempengaruhi saran pelengkapan otomatis dan mengungkapkan kredensial. Mozilla menambal Tabstack setelah pengungkapan yang bertanggung jawab; Cotypist memerlukan penerimaan pengguna atas saran tetapi masih terpengaruh oleh manipulasi instruksi. Penyebab akarnya adalah arsitektur: kedua sistem menggabungkan prompt developer terpercaya dengan data eksternal yang tidak dipercaya dalam jendela konteks datar tunggal, tanpa penegakan batas yang andal.

Vektor serangan

Penyerang menyematkan instruksi berbahaya dalam konten apa pun yang kemungkinan akan dicerna oleh alat AI: halaman web (tersembunyi melalui teks putih-di-atas-putih atau karakter lebar nol), dokumen, konten email, hasil alat, atau konteks yang diambil. Tidak ada akses langsung ke sistem AI yang diperlukan — muatan tiba melalui alur kerja normal korban.

Sistem yang terdampak

Agen AI atau alat berbantu AI apa pun yang mencerna konten eksternal yang tidak dipercaya (halaman web, dokumen, email, hasil pencarian) dalam jendela konteks yang sama dengan instruksi sistem dan pengguna. Didemonstrasikan terhadap Mozilla Tabstack (cloud) dan Cotypist (macOS on-device). Sebelumnya didemonstrasikan terhadap Opera Neon dan Perplexity Comet oleh tim yang sama.

Mitigasi

Mitigasi arsitektur: segmentasi jendela konteks yang ketat memisahkan saluran instruksi dari saluran data; penandaan provenance; memerlukan konfirmasi pengguna eksplisit sebelum penulisan eksternal apa pun (pengiriman formulir, panggilan API, penulisan file); dan memperlakukan semua konten yang diambil sebagai data, tidak pernah sebagai instruksi. Runtime: terapkan filter injeksi prompt ke konten yang dicerna dari sumber eksternal; catat dan inspeksi jejak keputusan agen untuk sumber instruksi yang tidak diharapkan.