Attack  ·  용어집

Chain-of-thought hijacking

AI 모델에 대한 공격으로, 단계별 추론을 보여주는 모델(이른바 '추론' 또는 '생각' 모델)을 대상으로 합니다. 공격자는 모델이 내부적으로 어떻게 생각하는지를 모방한 가짜 추론 텍스트를 주입하여 모델이 자체 안전 규칙을 우회하도록 속임으로써 연구 테스트에서 거의 100%의 성공률을 달성합니다. 모델이 '큰 목소리로 생각할수록' 공격자가 조작할 수 있는 표면 영역이 더 넓어집니다.
안전 검토는 종종 더 강력하고 더 신중한 AI 모델이 더 안전하다고 가정합니다. 이 공격은 그 가정을 뒤집으므로, 가장 강력한 AI 어시스턴트가 가장 악용되기 쉬운 것일 수 있습니다. 이사회는 벤더에게 자신의 추론 모델이 이 공격 클래스에 대해 구체적으로 테스트되었는지 확인해야 합니다.
참고 자료
NeuralTrust: Chain-of-Thought Hijacking Research
라이브 피드에서 추적 이 개념이 실제 AI 보안·거버넌스 동향에서 어떻게 나타나는지 확인하세요.
피드 열기 →