Model Penjaga WARD Membela Agen Web Terhadap Injeksi Prompt dengan Recall Hampir Sempurna

Penjelasan teknis

Para peneliti memperkenalkan WARD (Web Agent Robust Defense against Prompt Injection), model penjaga untuk mengamankan agen web terhadap serangan injeksi prompt yang tertanam dalam konten HTML atau antarmuka visual. WARD dilatih pada WARD-Base (177K sampel dari 719 URL dengan lalu lintas tinggi) dan WARD-PIG (dataset khusus untuk serangan yang menargetkan penjaga). Sistem ini mencapai recall hampir sempurna pada benchmark out-of-distribution, mempertahankan tingkat false positive yang rendah, dan berjalan secara efisien secara paralel dengan agen tanpa penambahan latensi.

Vektor serangan

Agen web menghadapi injeksi prompt adversarial yang tertanam di halaman web yang mereka kunjungi—melalui komentar HTML, CSS tak terlihat, atau prosa semantik yang dihasilkan LLM dalam ulasan pengguna, posting forum, iklan, atau widget tertanam. Model penjaga yang ada menderita dari generalisasi terbatas ke domain yang belum pernah dilihat, false positive tinggi, latensi deployment, dan kerentanan terhadap serangan adversarial yang berkembang atau menargetkan penjaga secara langsung.

Sistem yang terdampak

Agen web yang secara otomatis menjelajahi situs web dan berinteraksi dengan konten HTML, termasuk asisten AI berbasis browser, agen belanja otomatis, dan agen penelitian yang menavigasi lingkungan web terbuka. Pertahanan berlaku untuk sistem yang terekspos terhadap konten pihak ketiga yang tidak terpercaya selama eksekusi tugas.

Mitigasi

Deploy WARD sebagai model penjaga paralel yang memeriksa status halaman web (HTML dan tangkapan layar) sebelum eksekusi agen. Kerangka kerja pelatihan adversarial adaptif WARD (A3T) memungkinkan penguatan berulang melalui koevolusi penyerang dan penjaga berbasis memori. Desain latensi rendah sistem memungkinkan perlindungan waktu nyata tanpa mengurangi kinerja agen.