arXiv: '심기, 지속, 트리거' — 슬리퍼 공격 연구가 교차 상호작용 에이전트 메모리 중독을 별개의 위협 등급으로 공식화

무슨 일이 있었나

중국과학기술대학교, 싱가포르국립대학교, 싱가포르경영대학교, 상하이 AI 연구소의 연구원들이 2026년 5월 27일 LLM 에이전트를 위한 '슬리퍼 공격' 위협 모델을 공식화한 사전 인쇄본을 발표했습니다(arXiv:2605.28201). 7개의 LLM(오픈소스 및 폐쇄소스)에서 1,896개 인스턴스를 대상으로 테스트한 결과, 도구 반환 데이터, 웹 페이지 또는 MCP 컨텍스트에 주입된 적대적 콘텐츠가 에이전트 상태(세션 컨텍스트, 메모리, 재사용 가능한 스킬)에서 지속되고 무해한 사용자 쿼리를 통해 활성화될 수 있음을 보여주며, 직접 프롬프트 인젝션에 저항하는 것으로 보였던 에이전트에서도 단일 상호작용 기준선보다 높은 공격 성공률을 달성합니다.

왜 중요한가

에이전트형 AI에 대한 기존 방어 태세 — 대부분의 프롬프트 인젝션 방어를 포함하여 — 적대적 콘텐츠가 동일한 사용자 요청 내에서 해로운 행동을 트리거해야 한다고 가정합니다. 슬리퍼 공격은 이 가정을 무효화합니다: 에이전트의 메모리에 심어진 악의적 명령이 완전히 무관한 무해한 요청에 의해 트리거되기 전 며칠 또는 몇 주 동안 휴면 상태로 남아있을 수 있으며, 이는 탐지 및 귀속을 극도로 어렵게 만듭니다. 싱가포르에서 공동 저술된 이 연구는 메모리 지원 또는 장시간 실행 에이전트형 AI 시스템을 배포하는 엔터프라이즈에 직접적인 관련성이 있습니다.

필요한 조치

배포된 에이전트가 지속 가능한 메모리 또는 재사용 가능한 스킬 저장소를 가지고 있는지 검토하고 더 엄격한 제어를 적용합니다: 외부 콘텐츠의 메모리 쓰기를 제한하고, 로드된 스킬에 대한 무결성 검사를 추가하며, 단일 요청 내에서만 아니라 세션 전반에 걸쳐 상호관계가 있는 비정상적인 도구 호출을 찾는 행동 모니터링을 구현합니다.