싱가포르 정부–Google AI 에이전트 샌드박스: 프로덕션 에이전트 배포에서 간접 프롬프트 인젝션이 주요 사이버보안 위험으로 식별됨

무슨 일이 있었나

2026년 5월 20일, 싱가포르 사이버보안청(CSA), GovTech Singapore, IMDA, 그리고 Google은 2025년 8월부터 약 4개월간 진행된 전 세계 최초의 AI 에이전트 샌드박스 조사 결과를 발표했다. 이 샌드박스는 세 가지 실제 공공부문 사용 사례에 걸쳐 컴퓨터 사용 에이전트를 테스트했다: 정부 디지털 서비스의 자동화된 품질 보증, 배포된 챗봇의 AI 안전 테스트, 그리고 사회 지원 신청 안내. 모든 사용 사례에서 식별된 가장 두드러진 사이버보안 위험은 간접 프롬프트 인젝션이었다. 구체적으로, 에이전트가 자신의 환경에서 마주친 악성 콘텐츠를 통해 원격 코드 실행(RCE)을 포함한 의도하지 않은 동작을 수행하도록 기만당할 수 있는 위험이었다. 이 보고서는 또한 인간 감시 보정, 에이전트-데이터 상호작용 중 데이터 보호, 그리고 제3자 에이전트 커스터마이제이션을 주요 위험 테마로 식별했다. 이 보고서는 위험 기반 인간 감시(고위험에 대한 사전 승인, 가역적 저위험에 대한 사후 검토), 플랫폼, 조직, 그리고 사용자 계층 전반에 걸친 분산 보호장치, 그리고 통제된 단계적 배포를 권장한다.

왜 중요한가

이것은 간접 프롬프트 인젝션 → RCE가 단순한 이론적 우려가 아닌 에이전트 시스템의 실제 프로덕션 위험임을 확인하는 첫 번째 정부 지원 실증 연구이다. 이 발견은 강력한 실무적 무게를 지닌다: 이는 강화된 시스템에 대한 레드팀 연습이 아니었으며, 컴퓨터 사용 에이전트를 실행 중인 실제 공공부문 워크플로우였다. 다중 기관 싱가포르 인정(CSA + GovTech + IMDA)은 프롬프트 인젝션 방어가 싱가포르 정부 AI 조달에서 기대되는 기준선이 될 것이며, 확장하면 AI Verify 프레임워크와 같은 공급업체 인증에서도 그럴 것임을 시사한다.

필요한 조치

간접 프롬프트 인젝션을 모든 에이전트 배포의 필수 테스트 케이스로 취급하라. 특히 웹을 탐색하고, 이메일을 읽거나, 외부 소스의 문서를 처리하는 컴퓨터 사용 에이전트의 경우 더욱 그렇다. RCE 경로 프롬프트 인젝션 테스트를 배포 전 보안 검토 체크리스트에 추가하라. 에이전트 오케스트레이션 계층이 지시 콘텐츠와 검색된/외부 콘텐츠를 분리하는지 여부를 평가하고, 도구 호출 출력이 신뢰할 수 없는 입력으로 취급되는지 여부를 평가하라.