정의
AI 모델에 대한 공격으로, 단계별 추론을 보여주는 모델(이른바 '추론' 또는 '생각' 모델)을 대상으로 합니다. 공격자는 모델이 내부적으로 어떻게 생각하는지를 모방한 가짜 추론 텍스트를 주입하여 모델이 자체 안전 규칙을 우회하도록 속임으로써 연구 테스트에서 거의 100%의 성공률을 달성합니다. 모델이 '큰 목소리로 생각할수록' 공격자가 조작할 수 있는 표면 영역이 더 넓어집니다.
왜 중요한가
안전 검토는 종종 더 강력하고 더 신중한 AI 모델이 더 안전하다고 가정합니다. 이 공격은 그 가정을 뒤집으므로, 가장 강력한 AI 어시스턴트가 가장 악용되기 쉬운 것일 수 있습니다. 이사회는 벤더에게 자신의 추론 모델이 이 공격 클래스에 대해 구체적으로 테스트되었는지 확인해야 합니다.