Singapore 정부 AI 에이전트 샌드박스: RCE를 가능하게 하는 간접 프롬프트 인젝션, 최상위 프로덕션 에이전트 공격 벡터로 확인

기술 설명

Singapore의 CSA, GovTech, IMDA 및 Google의 공동 AI Agents Sandbox — 실제 공공 부문 워크플로우에서 컴퓨터 사용 에이전트에 대한 4개월간의 경험적 연구로 2026년 5월 20일 발표됨 — 간접 프롬프트 인젝션을 가장 두드러진 사이버보안 위험으로 식별했으며, 원격 코드 실행(RCE)을 트리거할 수 있는 능력을 명시적으로 언급했습니다. 이 발견은 정부 디지털 서비스에 대해 자동화된 QA, AI 안전 테스트 및 사회 보조 워크플로우에서 컴퓨터 사용 에이전트를 테스트한 결과로부터 나타났습니다. 샌드박스는 웹 콘텐츠, 문서 또는 외부 시스템 출력과 상호작용하는 에이전트가 직접 사용자 지시가 아닌 에이전트가 처리하는 콘텐츠에 포함된 악성 페이로드를 통해 의도하지 않은 작업(임의 코드 실행 포함) 수행으로 조작될 수 있음을 문서화했습니다.

공격 경로

환경 콘텐츠를 통한 간접 프롬프트 인젝션: 악의적인 행위자가 에이전트가 검색하고 처리하는 웹 페이지, 문서, API 응답 또는 기타 외부 콘텐츠에 인젝션 페이로드를 포함시킵니다. 에이전트는 검색된 콘텐츠를 신뢰할 수 있는 컨텍스트로 취급하고 포함된 지시를 따릅니다. 셸 명령, 코드 실행 또는 파일 시스템 작업에 대한 액세스 권한이 있는 컴퓨터 사용 에이전트에서 이 경로는 직접적인 사용자 상호작용 없이 전체 RCE를 달성할 수 있습니다.

영향받는 시스템

외부 콘텐츠를 처리하는 모든 에이전트형 AI 배포(웹 브라우징 에이전트, 문서 처리 에이전트, 이메일 에이전트, RAG 기반 에이전트, 컴퓨터 사용 에이전트). 특히 높은 위험: 셸 실행, 코드 인터프리터, 파일 쓰기 액세스 또는 ambient 자격증명을 사용한 외부 API 호출을 포함하는 도구 호출 기능이 있는 에이전트.

완화 방안

아키텍처 완화: (1) 지시 콘텐츠(시스템 프롬프트 및 신뢰할 수 있는 사용자 입력에서)를 검색된/환경 콘텐츠와 엄격하게 분리 — 모든 외부 콘텐츠를 지시가 아닌 신뢰할 수 없는 데이터로 취급합니다. (2) 최소 필요 권한으로 도구 호출 허용 목록을 구현; 외부 콘텐츠 검색 도구에 ambient 자격증명 액세스 권한을 부여하지 않습니다. (3) 에이전트 추론에 의해 도구 호출 실행이 트리거되기 전에 출력 유효성 검사 계층을 배포합니다. (4) 상관 ID로 모든 도구 호출을 기록하고 검색된 콘텐츠의 비정상적인 지시 패턴을 플래그합니다. (5) 프로덕션 릴리스 전에 간접 프롬프트 인젝션 테스트 제품군으로 모든 에이전트형 배포를 테스트 — 이를 선택 사항이 아닌 필수 보안 게이트로 취급합니다.