취약점  ·  2026-06-26

프롬프트 인젝션을 역할 혼동으로 — ICML 2026 논문이 작동하는 PoC를 통해 구조적 LLM 공격 클래스 시연 (arXiv:2603.12277)

취약점High 영향도Global
Ye, Cui 및 Hadfield-Menell의 논문(ICML 2026에 수수) (arXiv:2603.12277)이 2026년 6월 24-25일경 웹에 게시되었으며, 현재 LLM이 정식 역할 태그(system/user/tool)보다는 쓰기 스타일과 어조를 통해 메시지 역할을 주로 식별함을 증명합니다. 공격자는 도구 출력 또는 외부 데이터에 시스템 프롬프트 또는 사용자 턴의 문체 특성을 모방하는 콘텐츠를 포함시켜 모델이 이를 신뢰할 수 있는 명령으로 실행하게 할 수 있습니다. 이 논문은 'CoT 위조'를 소개합니다. 즉, 모델이 자신의 이전 생각으로 잘못 인식하는 가짜 체인-오브-사고 추론을 주입하며, 문체 변경(주입된 콘텐츠의 쓰기 스타일 변경)이 공격 성공률을 61%에서 약 10%로 감소시킴을 보여주며, 스타일이 지배적 신호임을 확인합니다.
이는 더 나은 시스템 프롬프트 표현으로 패치할 수 있는 프롬프트 엔지니어링 간격이 아니라 LLM이 역할을 인식하는 방식의 구조적 결함입니다. 외부 데이터(웹 페이지, 이메일, 문서, 도구 출력)를 처리하는 배포된 모든 LLM 에이전트는 잠재적으로 취약합니다. PoC는 최첨단 모델에서 높은 기준선 성공률(61%)을 보여주며 이전 완화 시도가 실패하는 이유에 대한 기계론적 설명을 제공합니다. CoT 위조는 제조된 내부 생각이 자율적 동작을 조종할 수 있는 추론 체인 모델(o1, Claude 3.x, Gemini 2.x)에 대한 새로운 공격 벡터입니다.
도구 출력, 웹 수집 페이지, 이메일 또는 문서에 포함된 악성 콘텐츠가 시스템/사용자 역할 마커를 모방하도록 문체적으로 포맷되어 LLM 에이전트가 주입된 명령을 실행하게 합니다. CoT 위조 변형은 가짜 추론 추적을 주입합니다.
혼합 역할 컨텍스트 윈도우를 처리하는 모든 주요 LLM 배포, 특히 체인-오브-사고 추론을 사용하는 에이전트형 시스템 (GPT-4o, Claude, Gemini 등)
컨텍스트 윈도우에 주입하기 전에 도구/외부 데이터 출력에 문체 제거를 적용합니다(공격 성공률을 61%에서 약 10%로 감소). 검색된 모든 콘텐츠를 악의적인 것으로 취급합니다. 에이전트 실행을 샌드박스화합니다. 비정상적인 명령 실행 패턴에 대한 출력을 모니터링합니다. 현재 모델 수준 패치는 없습니다. 논문: https://arxiv.org/abs/2603.12277
출처
Prompt Injection as Role Confusion — Project Page (ICML 2026)arXiv:2603.12277Lothar Schulz — Explained June 25 2026
라이브 피드에서 보기 AI 보안 및 거버넌스 관련 소식을 더 살펴보세요 — 매일 아침 업데이트.
피드 열기 →