WARD 가드 모델은 프롬프트 주입으로부터 웹 에이전트를 거의 완벽한 재현율로 방어합니다

기술 설명

연구원들은 WARD(Web Agent Robust Defense against Prompt Injection)를 소개했습니다. 이는 HTML 콘텐츠나 시각적 인터페이스에 포함된 프롬프트 주입 공격으로부터 웹 에이전트를 보호하는 가드 모델입니다. WARD는 WARD-Base(719개의 고트래픽 URL에서 수집한 177K 샘플)와 WARD-PIG(가드 대상 공격 전용 데이터셋)에서 학습됩니다. 이 시스템은 분포 외 벤치마크에서 거의 완벽한 재현율을 달성하고, 낮은 거짓 양성률을 유지하며, 추가 지연 없이 에이전트와 병렬로 효율적으로 실행됩니다.

공격 경로

웹 에이전트는 방문하는 웹 페이지에 포함된 적대적 프롬프트 주입을 만나게 됩니다. 이는 HTML 주석, 보이지 않는 CSS, 또는 사용자 리뷰, 포럼 게시물, 광고, 또는 임베드된 위젯 내의 LLM 생성 의미론적 텍스트를 통해 전달됩니다. 기존 가드 모델은 보이지 않는 도메인으로의 일반화 제한, 높은 거짓 양성률, 배포 지연, 그리고 진화하거나 가드를 직접 겨냥한 적대적 공격에 대한 취약성으로 고통받습니다.

영향받는 시스템

자율적으로 웹사이트를 탐색하고 HTML 콘텐츠와 상호작용하는 웹 에이전트. 브라우저 기반 AI 어시스턴트, 자율 쇼핑 에이전트, 개방형 웹 환경을 탐색하는 리서치 에이전트를 포함합니다. 이 방어는 작업 실행 중 신뢰할 수 없는 제3자 콘텐츠에 노출된 시스템에 적용됩니다.

완화 방안

WARD를 병렬 가드 모델로 배포하여 에이전트 실행 전에 웹페이지 상태(HTML 및 스크린샷)를 검사합니다. WARD의 적응형 적대적 학습 프레임워크(A3T)는 메모리 기반 공격자 및 가드 공진화를 통한 반복적 강화를 가능하게 합니다. 이 시스템의 낮은 지연 설계는 에이전트 성능을 저하시키지 않으면서 실시간 보호를 제공합니다.