정의
현재 AI 추론 모델이 작동하는 방식 내의 구조적 결함인 chain-of-thought hijacking의 특정 기법으로, 공격자가 AI 추론 모델의 내부 '사고' 스타일을 완벽하게 모방하는 텍스트를 주입합니다. 모델이 자신의 사고와 외부 입력을 구분하기 위해 안전한 구조적 태그가 아닌 작문 스타일을 사용하기 때문에, 위조된 추론 텍스트는 모델이 생성한 것처럼 수용되어 안전 검사를 우회합니다.
왜 중요한가
이것은 현재 AI 추론 모델이 작동하는 방식 내의 구조적 결함으로, 소프트웨어 업데이트로 패치할 수 있는 버그가 아닙니다. 이는 추론 모델에 구축된 안전 가드레일이 모델의 추론 스타일을 이해하는 누구나에 의해 체계적으로 우회될 수 있음을 의미합니다.