무슨 일이 있었나
Ye, Cui 및 Hadfield-Menell의 논문(ICML 2026에 수수) (arXiv:2603.12277)이 2026년 6월 24-25일경 웹에 게시되었으며, 현재 LLM이 정식 역할 태그(system/user/tool)보다는 쓰기 스타일과 어조를 통해 메시지 역할을 주로 식별함을 증명합니다. 공격자는 도구 출력 또는 외부 데이터에 시스템 프롬프트 또는 사용자 턴의 문체 특성을 모방하는 콘텐츠를 포함시켜 모델이 이를 신뢰할 수 있는 명령으로 실행하게 할 수 있습니다. 이 논문은 'CoT 위조'를 소개합니다. 즉, 모델이 자신의 이전 생각으로 잘못 인식하는 가짜 체인-오브-사고 추론을 주입하며, 문체 변경(주입된 콘텐츠의 쓰기 스타일 변경)이 공격 성공률을 61%에서 약 10%로 감소시킴을 보여주며, 스타일이 지배적 신호임을 확인합니다.
왜 중요한가
이는 더 나은 시스템 프롬프트 표현으로 패치할 수 있는 프롬프트 엔지니어링 간격이 아니라 LLM이 역할을 인식하는 방식의 구조적 결함입니다. 외부 데이터(웹 페이지, 이메일, 문서, 도구 출력)를 처리하는 배포된 모든 LLM 에이전트는 잠재적으로 취약합니다. PoC는 최첨단 모델에서 높은 기준선 성공률(61%)을 보여주며 이전 완화 시도가 실패하는 이유에 대한 기계론적 설명을 제공합니다. CoT 위조는 제조된 내부 생각이 자율적 동작을 조종할 수 있는 추론 체인 모델(o1, Claude 3.x, Gemini 2.x)에 대한 새로운 공격 벡터입니다.
공격 경로
도구 출력, 웹 수집 페이지, 이메일 또는 문서에 포함된 악성 콘텐츠가 시스템/사용자 역할 마커를 모방하도록 문체적으로 포맷되어 LLM 에이전트가 주입된 명령을 실행하게 합니다. CoT 위조 변형은 가짜 추론 추적을 주입합니다.
영향받는 시스템
혼합 역할 컨텍스트 윈도우를 처리하는 모든 주요 LLM 배포, 특히 체인-오브-사고 추론을 사용하는 에이전트형 시스템 (GPT-4o, Claude, Gemini 등)
완화 방안
컨텍스트 윈도우에 주입하기 전에 도구/외부 데이터 출력에 문체 제거를 적용합니다(공격 성공률을 61%에서 약 10%로 감소). 검색된 모든 콘텐츠를 악의적인 것으로 취급합니다. 에이전트 실행을 샌드박스화합니다. 비정상적인 명령 실행 패턴에 대한 출력을 모니터링합니다. 현재 모델 수준 패치는 없습니다. 논문: https://arxiv.org/abs/2603.12277