Indirect Prompt Injection은 배포별이 아닌 아키텍처 문제 — Brave, 클라우드 및 로컬 AI 도구에 대한 공격 시연

기술 설명

Brave Security Research는 2026년 6월 8일 간접 프롬프트 주입(제3자 콘텐츠에 포함된 악의적 지시사항이 AI 에이전트의 작업을 탈취하는 경우)이 클라우드 호스팅 AI(Mozilla Tabstack)와 완전 온디바이스 AI(Cotypist for macOS) 모두에 동일하게 작동함을 실증적으로 입증했습니다. Tabstack의 경우, 웹페이지의 보이지 않는 텍스트로 인해 에이전트가 요약 작업을 포기하고 공격자 제어 양식으로 이동한 후 사용자의 대화 기록으로 채우고 제출했습니다. Cotypist의 경우, 로컬 문서의 지시사항이 자동 완성 제안에 영향을 미쳤고 자격 증명을 노출했습니다. Mozilla는 책임감 있는 공개 이후 Tabstack을 패치했습니다. Cotypist는 사용자 수락이 필요하지만 여전히 명령 조작의 영향을 받습니다. 근본 원인은 아키텍처적입니다: 두 시스템 모두 신뢰할 수 있는 개발자 프롬프트를 신뢰할 수 없는 외부 데이터와 단일 평면 컨텍스트 윈도우에서 결합하고 있으며, 신뢰할 수 있는 경계 강제가 없습니다.

공격 경로

공격자는 AI 도구가 수집할 가능성이 있는 모든 콘텐츠에 악의적 지시사항을 포함합니다: 웹페이지(흰색 텍스트 또는 영폭 없는 문자로 숨겨짐), 문서, 이메일 콘텐츠, 도구 결과 또는 검색된 컨텍스트. AI 시스템에 직접 접근할 필요가 없습니다 — 페이로드는 피해자의 정상적인 워크플로우를 통해 도착합니다.

영향받는 시스템

신뢰할 수 없는 외부 콘텐츠(웹페이지, 문서, 이메일, 검색 결과)를 시스템 및 사용자 지시사항과 동일한 컨텍스트 윈도우에서 수집하는 모든 AI 에이전트 또는 AI 지원 도구. Mozilla Tabstack(클라우드)과 Cotypist(온디바이스 macOS)에 대해 입증되었습니다. 이전에 동일한 팀에 의해 Opera Neon과 Perplexity Comet에 대해 입증되었습니다.

완화 방안

아키텍처 완화 방법: 명령 채널과 데이터 채널을 분리하는 엄격한 컨텍스트 윈도우 분할; 출처 태깅; 외부 쓰기(양식 제출, API 호출, 파일 쓰기) 전에 명시적인 사용자 확인 요구; 검색된 모든 콘텐츠를 데이터로 취급, 지시사항으로 취급하지 않음. 런타임: 외부 소스에서 수집한 콘텐츠에 프롬프트 주입 필터 적용; 예상치 못한 지시사항 소스에 대해 에이전트 결정 추적을 기록 및 검사합니다.