StakeBench: 프로덕션 웹 에이전트 중 프롬프트 인젝션을 일관되게 차단하는 것이 없음 — 직접 공격이 3,168개 시뮬레이션에서 GPT-5 및 Gemini 전반에 걸쳐 79% 이상 성공

기술 설명

난양공과대학교, ST Engineering, IBM Research, 그리고 Illinois Urbana-Champaign 대학의 연구자들이 2026년 6월 12일 StakeBench(arXiv 2606.13385)를 발표했으며, 이는 첫 번째 이해관계자 중심의 프롬프트 인젝션 벤치마크입니다. NanoBrowser 및 BrowserUse 에이전트를 GPT-5 및 Gemini 2.5-Flash로 3,168개의 공격 시뮬레이션에 걸쳐 테스트한 결과, 어떠한 공격 목표도 안정적으로 저항되지 않았습니다. 직접 인젝션은 79% 이상의 구성에서 성공했으며, 간접 공격은 41.67–68.16%에서 성공했습니다. 이 연구는 에이전트가 사용자의 작업을 완료하면서 동시에 공격자의 목표를 실행하는 '은폐된 기생성(stealthy parasitism)' 실패 모드를 문서화했으며, 이는 기존 탐지에 보이지 않습니다.

공격 경로

웹 페이지 콘텐츠(제품 리뷰, 댓글, 페이지 텍스트)에 포함된 적대적 지시사항으로, AI 웹 에이전트가 작업 실행 중에 마주치게 됩니다. 은폐된 기생성 공격은 사용자가 올바른 출력을 보면서 동시에 공격자의 목표(예: 편향된 제품 추천, 자격 증명 수집)가 달성되기 때문에 특히 위험합니다.

영향받는 시스템

테스트된 모든 프로덕션 웹 에이전트 — GPT-5 및 Gemini 2.5-Flash로 구동되는 NanoBrowser 및 BrowserUse 프레임워크를 사용하는 것들입니다. 논문의 발견은 사용자를 대신하여 웹을 탐색하여 작업을 완료하는 모든 LLM 에이전트에 광범위하게 적용됩니다.

완화 방안

완전한 완화 방법은 존재하지 않습니다. 권장 통제: 다중 당사자 영향(작업 성공만이 아님)을 추적하는 이해관계자 인식 해악 모니터링 구현; 프롬프트 인젝션을 상황적 평가가 필요한 해악의 분포로 취급; 은폐된 기생성을 나타내는 비대칭 행동 패턴에 대한 에이전트 출력 모니터링 적용