취약점  ·  2026-04-12

Sockpuppeting: 11개 주요 LLM에 영향을 미치는 범용 단일 라인 탈옥

취약점High 영향도
Trend Micro 연구원들이 API 어시스턴트 프리필 기능을 악용하여 단 한 줄의 코드로 11개 주요 LLM의 안전 가드레일을 우회하는 '소크퍼펫팅(Sockpuppeting)' 탈옥 기법을 공개했습니다. 기능적 악성코드 및 기밀 시스템 프롬프트를 성공적으로 추출했습니다.
표준 API 프리필 기능을 통한 어시스턴트 역할 메시지에 가짜 승인을 주입하여, 금지된 출력을 계속하려는 모델의 자체 일관성 경향을 악용합니다. API 어시스턴트 프리필을 지원하는 액세스만 필요—모델 가중치, 최적화 또는 특화된 도구 불필요합니다.
GPT-4o, GPT-4o-mini, Claude 4 Sonnet, Gemini 2.5 Flash (15.7% ASR에서 가장 취약) 및 7개의 다른 주요 LLM. 3개 모델은 API 레이어에서 차단되었습니다.
API 레이어에서 어시스턴트 역할 메시지를 차단하는 메시지 순서 유효성 검사를 구현합니다. 알려진 공격 패턴에 대한 출력 필터링을 적용합니다. 비정상적인 프리필 패턴에 대한 API 사용을 모니터링합니다.
출처
Trend Micro - Sockpuppeting How a Single Line Can Bypass LLM Safety GuardrailsCyberSecurity News - Single Line of Code Can Jailbreak 11 AI ModelsGBHackers - 11 AI Models Vulnerable to One-Line Jailbreak
라이브 피드에서 보기 AI 보안 및 거버넌스 관련 소식을 더 살펴보세요 — 매일 아침 업데이트.
피드 열기 →