NeuralTrust: Chain-of-Thought Hijacking 연구 — 프론티어 추론 모델에서 최대 100% 안전성 우회

무슨 일이 있었나

NeuralTrust는 2026년 6월 25일 Chain-of-Thought Hijacking에 대한 연구를 발표했습니다 — 해로운 프롬프트를 수천 개의 무해한 추론 토큰 아래에 묻어 거부 신호를 희석시켜 Gemini 2.5 Pro에서 99% 성공, Grok 3 Mini에서 100% 달성하는 jailbreak 기법. NeuralTrust의 플랫폼은 비행 중 안전성 검증을 완화 방법으로 위치합니다.

왜 중요한가

'더 많이 추론하기'가 '더 안전하기'와 같지 않다는 것을 보여줍니다 — Large Reasoning Models(LRM)을 강력하게 만드는 바로 그 기능이 악용 가능한 공격 표면이 됩니다. 에이전트형 또는 고객 대면 컨텍스트에서의 프론티어 추론 모델의 모든 배포가 노출됩니다.

적용 범위

추론 모델(Gemini 2.5, GPT o-series, Grok)을 에이전트형 또는 사용자 대면 역할에 배포하는 팀들은 초기 프롬프트 필터만 신뢰하기보다는 지속적인 비행 중 의도 모니터링을 구현해야 합니다; 추론 체인 검사 기능을 위해 LLM 방화벽 공급업체를 평가하세요.