대규모 추론 모델이 자율 공격자로서 97% 탈옥 성공률 달성

기술 설명

Nature Communications 연구에서는 4개의 추론 모델(DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B)을 9개의 대상을 상대로 자율 공격자로 테스트했으며, 97.14%의 탈옥 성공률을 발견했습니다. 이는 탈옥을 전문가 기술에서 저렴하고 확장 가능한 공격으로 전환했습니다.

공격 경로

추론 모델이 대상 응답에 기반하여 탈옥 프롬프트를 생성하고 반복하는 자율 다중 단계 프롬프트 엔지니어링.

영향받는 시스템

배포된 모든 LLM; 오픈 가중치 모델의 엔터프라이즈 배포가 높은 위험에 직면해 있습니다.

완화 방안

공격자 피드백 루프를 중단하기 위해 허위 응답을 주입하는 사전 예방적 방어(예: ProAct); LLM 솔팅; 평가를 위한 탈옥 증류; 경계 추론 모델이 공격자로 전용되는 것을 방지하기 위한 정렬 작업.