무슨 일이 있었나
중국과학기술대학교, 싱가포르국립대학교, 싱가포르경영대학교, 상하이 AI 연구소의 연구원들이 2026년 5월 27일 LLM 에이전트를 위한 '슬리퍼 공격' 위협 모델을 공식화한 사전 인쇄본을 발표했습니다(arXiv:2605.28201). 7개의 LLM(오픈소스 및 폐쇄소스)에서 1,896개 인스턴스를 대상으로 테스트한 결과, 도구 반환 데이터, 웹 페이지 또는 MCP 컨텍스트에 주입된 적대적 콘텐츠가 에이전트 상태(세션 컨텍스트, 메모리, 재사용 가능한 스킬)에서 지속되고 무해한 사용자 쿼리를 통해 활성화될 수 있음을 보여주며, 직접 프롬프트 인젝션에 저항하는 것으로 보였던 에이전트에서도 단일 상호작용 기준선보다 높은 공격 성공률을 달성합니다.
왜 중요한가
에이전트형 AI에 대한 기존 방어 태세 — 대부분의 프롬프트 인젝션 방어를 포함하여 — 적대적 콘텐츠가 동일한 사용자 요청 내에서 해로운 행동을 트리거해야 한다고 가정합니다. 슬리퍼 공격은 이 가정을 무효화합니다: 에이전트의 메모리에 심어진 악의적 명령이 완전히 무관한 무해한 요청에 의해 트리거되기 전 며칠 또는 몇 주 동안 휴면 상태로 남아있을 수 있으며, 이는 탐지 및 귀속을 극도로 어렵게 만듭니다. 싱가포르에서 공동 저술된 이 연구는 메모리 지원 또는 장시간 실행 에이전트형 AI 시스템을 배포하는 엔터프라이즈에 직접적인 관련성이 있습니다.
필요한 조치
배포된 에이전트가 지속 가능한 메모리 또는 재사용 가능한 스킬 저장소를 가지고 있는지 검토하고 더 엄격한 제어를 적용합니다: 외부 콘텐츠의 메모리 쓰기를 제한하고, 로드된 스킬에 대한 무결성 검사를 추가하며, 단일 요청 내에서만 아니라 세션 전반에 걸쳐 상호관계가 있는 비정상적인 도구 호출을 찾는 행동 모니터링을 구현합니다.