미국 의원들, 재일브레이크된 AI 모델이 수초 내에 상세한 공격 계획을 생성하는 것에 대해 브리핑받음

기술 설명

DHS National Counterterrorism Innovation, Technology and Education Center (NCITE)와 众议院 국토안보위원회가 의원들에게 재일브레이크된('abliterated') AI 모델을 시연했으며, 안전 가드레일 제거가 모델이 3초 이내에 공격을 위한 단계별 지침을 생성하도록 한다는 것을 보여줬다. 검열된 모델이 거부했을 때 모델들은 납치, 폭탄 테러 및 대량 피해 사건에 대한 상세한 지침을 제공했다. 다수의 미국 및 외국 모델이 시연되었으며, 이름은 공개되지 않았다.

공격 경로

Abliteration(거부 메커니즘 비활성화) 또는 프롬프트 엔지니어링(제한된 쿼리를 밀도 높은 학술 언어로 숨김)을 통한 재일브레이킹은 안전 계층을 우회한다. 위협 행위자들은 abliterated 모델을 다음과 같이 사용할 수 있다: (1) 상세한 공격 계획 생성, (2) 악성코드 및 익스플로잇 코드 생성, (3) 소셜 엔지니어링 캠페인 작성, (4) 정찰 자동화. 러시아 연계 그룹들이 허위정보를 위해 LLM을 탈취했으며, 베이징 지원 행위자들은 자동화된 사이버 공격을 위해 Claude를 무기화 시도했다.

영향받는 시스템

안전 가드레일이 있는 모든 주요 LLM은 재일브레이킹 기법에 취약하다. Abliterated 모델(공개적으로 이용 가능한 오픈 웨이트 변형)이 최고 위험을 제시한다. 런타임 필터링 없이 제공자 측 안전 제어에만 의존하는 엔터프라이즈 배포는 노출 위험이 있다.

완화 방안

심층 방어 구현: (1) 모델 계층 제어와 별도의 런타임 콘텐츠 필터링 배포, (2) 재일브레이크 시도 패턴 모니터링(비정상적 표현, 역할극 프롬프트, 인코딩된 지침), (3) 엔터프라이즈 환경에서 오픈 웨이트 모델에 대한 액세스 제한, (4) 보안 분석을 위해 모든 LLM 쿼리 기록, (5) 모델 기능에 최소 권한 원칙 적용(비기술적 사용 사례를 위해 코드 실행, 웹 액세스 비활성화). Florida AG가 ChatGPT 상호작용과 연계된 FSU 사격 사건 이후 OpenAI에 대한 형사 수사를 확대했다.