Governance  ·  용어집

Jailbreak severity benchmark

AI 탈옥의 위험성을 평가하는 공식적인 채점 시스템 — 안전 우회가 얼마나 멀리 진행되었는지, 어떤 해로운 기능이 접근 가능해졌는지, 얼마나 쉽게 반복될 수 있는지, 그리고 어떤 실제 피해가 발생할 수 있는지 등의 요소를 측정합니다. White House와 Anthropic은 이러한 벤치마크의 첫 번째 정부-산업 버전을 적극적으로 개발 중입니다.
합의된 심각도 척도가 없으면 정부와 기업들은 AI 모델이 배포하기에 너무 위험하거나 회수되어야 하는지를 결정하기 위한 공통 언어를 갖지 못합니다 — 벤치마크는 모든 신뢰할 수 있는 AI 모델 거버넌스 체제의 기초입니다.
참고 자료
Politico: White House talks with Anthropic shift to setting AI security rules
라이브 피드에서 추적 이 개념이 실제 AI 보안·거버넌스 동향에서 어떻게 나타나는지 확인하세요.
피드 열기 →