Question 1

CoT forgery (chain-of-thought forgery)란 무엇인가요?

Accepted Answer

현재 AI 추론 모델이 작동하는 방식 내의 구조적 결함인 chain-of-thought hijacking의 특정 기법으로, 공격자가 AI 추론 모델의 내부 '사고' 스타일을 완벽하게 모방하는 텍스트를 주입합니다. 모델이 자신의 사고와 외부 입력을 구분하기 위해 안전한 구조적 태그가 아닌 작문 스타일을 사용하기 때문에, 위조된 추론 텍스트는 모델이 생성한 것처럼 수용되어 안전 검사를 우회합니다.

Question 2

CoT forgery (chain-of-thought forgery)이(가) AI 보안에서 왜 중요한가요?

Accepted Answer

이것은 현재 AI 추론 모델이 작동하는 방식 내의 구조적 결함으로, 소프트웨어 업데이트로 패치할 수 있는 버그가 아닙니다. 이는 추론 모델에 구축된 안전 가드레일이 모델의 추론 스타일을 이해하는 누구나에 의해 체계적으로 우회될 수 있음을 의미합니다.