MemPoison — 일반적인 대화를 통해 LLM 에이전트의 장기 메모리에 지속형 백도어를 주입하는 은폐형 트로이목마 공격, 선택적 메모리 방어 우회

기술 설명

칭화대학교, PLA 정보공학대학교 및 관련 기관의 연구원들이 장기 메모리를 가진 LLM 에이전트에 대한 새로운 메모리 포이즈닝 공격인 MemPoison (arXiv:2605.29960, 2026-05-28)을 발표했다. 직접 데이터베이스 쓰기 접근을 가정하는 이전 공격과 달리, MemPoison은 완전히 일반적인 블랙박스 대화 상호작용을 통해 작동한다. 이 공격은 세 가지 구성 요소를 사용한다: (1) 트리거와 악의적 페이로드를 일관성 있는 문장으로 결합하여 에이전트의 선택적 메모리 추출을 통과하도록 하는 의미론적 관계 브릿지; (2) 에이전트의 메모리 재작성 단계에 저항하도록 트리거를 명명된 엔터티로 위장하는 엔터티 마스커레이딩; (3) 트리거 주입 텍스트를 양성 임베딩 근처에 클러스터링하여 은폐성을 유지하면서 신뢰성 있는 검색을 위해 분리를 유지하는 결합 임베딩 최적화. 여러 에이전트 도메인과 메모리 아키텍처에서 평가한 결과, MemPoison은 최대 0.95의 공격 성공률을 달성하여 이전 방법을 상당히 능가하며, 기존 방어(탐지 기반 및 격리 기반 접근 포함)는 이를 안정적으로 완화하지 못한다.

공격 경로

공격자는 메모리 증강 LLM 에이전트와 정상적인 사용자 인터페이스를 통해 상호작용한다. 트리거-페이로드 구성을 포함한 제작된 대화 메시지는 에이전트의 메모리 수집 파이프라인을 통과하고, 선택적으로 추출되어(필터링 단계를 통과) 장기 메모리 저장소에 지속되며, 향후 일치하는 쿼리에서 검색되어 트리거 조건이 충족될 때 에이전트가 공격자가 지정한 동작을 실행하도록 한다. 특별한 접근 권한이 필요하지 않으며, 공격은 세션 전반에 걸쳐 반복 가능하다.

영향받는 시스템

장기 메모리 메커니즘이 있는 LLM 에이전트 (MemGPT 스타일 시스템, 지속형 삽화 메모리가 있는 RAG 증강 에이전트, 세션 기록이 있는 고객 서비스 에이전트, 프로젝트 메모리가 있는 코딩 에이전트). OpenClaw, Codex, Claude Code의 프로덕션 배포 및 사용자 상호작용 기록을 저장하는 모든 에이전트 프레임워크는 메모리 필터링이 우회될 수 있다면 구조적으로 노출된다.

완화 방안

직접적인 패치는 없으며, 연구원들은 여러 방어 전략을 평가했고 모든 방어에서 근본적인 제한을 발견했다. 권장되는 임시 제어: (1) 에이전트 장기 메모리 저장소를 신뢰할 수 있는 상태가 아닌 적대적 입력으로 취급하고, 추출된 메모리 항목에 이상 탐지를 적용하며, 특히 비정상적으로 구체적인 명명된 엔터티 연결을 찾는다. (2) 신뢰할 수 없거나 공개 대면 에이전트에 대한 메모리 지속성을 제한한다. (3) 작업 수정 지시사항을 포함하는 메모리 항목이 지속형 저장소에 커밋되기 전에 인간의 검토를 요구한다. (4) 프로덕션 배포 전에 MemPoison 클래스 적대적 입력에 대해 메모리 증강 에이전트를 평가한다.