기술 설명
Trend Micro 연구원들이 API 어시스턴트 프리필 기능을 악용하여 단 한 줄의 코드로 11개 주요 LLM의 안전 가드레일을 우회하는 '소크퍼펫팅(Sockpuppeting)' 탈옥 기법을 공개했습니다. 기능적 악성코드 및 기밀 시스템 프롬프트를 성공적으로 추출했습니다.
공격 경로
표준 API 프리필 기능을 통한 어시스턴트 역할 메시지에 가짜 승인을 주입하여, 금지된 출력을 계속하려는 모델의 자체 일관성 경향을 악용합니다. API 어시스턴트 프리필을 지원하는 액세스만 필요—모델 가중치, 최적화 또는 특화된 도구 불필요합니다.
영향받는 시스템
GPT-4o, GPT-4o-mini, Claude 4 Sonnet, Gemini 2.5 Flash (15.7% ASR에서 가장 취약) 및 7개의 다른 주요 LLM. 3개 모델은 API 레이어에서 차단되었습니다.
완화 방안
API 레이어에서 어시스턴트 역할 메시지를 차단하는 메시지 순서 유효성 검사를 구현합니다. 알려진 공격 패턴에 대한 출력 필터링을 적용합니다. 비정상적인 프리필 패턴에 대한 API 사용을 모니터링합니다.