TELUS Digital GenAI Safety Benchmark: 테스트된 모든 모델이 악용 가능했으며, 620,000개 이상의 적대적 공격 전반에서 공격 성공률이 1.3%에서 93%까지

무슨 일이 있었나

TELUS Digital의 Fuel iX Applied Research 팀은 5월 26일 GenAI Safety Model Benchmark 2026을 발표했으며, 10개 공급업체의 34개 모델을 620,000개 이상의 적대적 공격 평가 및 15개 위험 범주에 걸쳐 다루었습니다. 주요 결과: 모든 단일 모델이 악용 가능했습니다. 공격 성공률은 1.3%(최고)에서 93%(최악)까지 범위였습니다. 생산 환경에서 널리 사용되는 대부분의 모델은 40% 이상의 공격 성공률을 초과했습니다. 최고 성능 모델을 포함한 모든 테스트 모델을 뚫은 공격 범주는 3가지입니다: 개인정보/개인 데이터 악용, 사기/금융 사기, 그리고 사이버보안 위협 생성. 소형 모델(≤10B 매개변수)은 86%의 시간에 공격에 저항하지 못했습니다. 새로운 '거부하지만 참여하는' 동작이 식별되었습니다 — 모델이 거부하지만 그 후 기본 해로운 주제에 계속 지원하는 것 — 별개의 악용 가능한 취약성 클래스로 분류됩니다.

왜 중요한가

벤치마크는 모델 안전 대화를 '어느 모델이 가장 안전한가'에서 '배포 컨텍스트를 고려할 때 특정 공격 표면은 무엇인가'로 전환합니다. '거부하지만 참여하는' 발견은 특히 실행 가능합니다: 고객 서비스, 금융 자문 또는 규정 준수 워크플로에 배포된 이 패턴을 보이는 모델은 실질적인 안전 경계를 제공하지 않습니다. 중국 출처 모델이 크기를 제어하면 서방 모델과 의미 있는 안전 차이를 보이지 않는다는 발견은 일반적으로 인용되지만 지원되지 않는 소싱 휴리스틱을 제거합니다.

필요한 조치

전체 TELUS Digital 벤치마크를 다운로드하고 배포된 모델을 15개 공격 범주에 대해 매핑합니다. 특히 일반 안전 평가가 아닌 프로덕션 배포 컨텍스트에서 '거부하지만 참여하는' 동작을 테스트합니다. 특히 모델 버전을 업그레이드하거나 미세 조정을 변경할 때 일회성 사전 출시 확인이 아닌 릴리스 게이트로 지속적인 적색팀 운영을 확립합니다.