위치: 행동 보증은 거버넌스가 현재 요구하는 안전 주장을 검증할 수 없음

무슨 일이 있었나

본 입장 논문은 행동 보증 방법(평가, 레드팀, 시스템 카드)이 인식론적으로 확립할 수 없는 안전 속성을 검증하도록 요구받고 있다고 주장합니다. 2019년부터 2026년 초 사이에 제정된 AI 거버넌스 프레임워크는 "숨겨진 목표의 부재, 제어 손실 전조에 대한 저항성, 제한된 재앙적 능력과 같은 속성의 검토 가능한 증거"를 요구하지만, 현재 보증 방법론은 관찰 가능한 모델 출력에 제한되며 잠재 표현이나 장기간의 에이전트 행동을 검증할 수 없습니다. 저자들은 이를 "감시 격차"(필요한 검증 접근성과 달성 가능한 검증 접근성 간의 차이)로 형식화하고, 증거 구조가 주장된 안전 주장을 뒷받침하지 않는 경우를 설명하기 위해 "취약한 보증"을 도입합니다. 21개의 거버넌스 도구(EU AI Act Article 55, California SB-53, Singapore AI Verify, South Korea AI Basic Act 등 포함)에 대한 분석을 통해, 본 논문은 지정학적 및 산업적 압력이 심층 구조적 검증보다 표면 수준의 행동 대리변수를 보상하는 인센티브 기울기를 식별합니다. 저자들은 법적 텍스트에서 행동 증거의 가중치를 제한하고, 기계적 증거 클래스(선형 프로브, 활성화 패칭, 학습 전후 비교)를 통한 자발적 배포 전 접근성 확대를 제안합니다. 사전 인쇄본, 동료 검토 미실시.

왜 중요한가

최전선 AI 시스템이 더욱 에이전트화되고 영향력 있어짐에 따라, 거버넌스가 요구하는 것과 감시자가 검증할 수 있는 것 사이의 격차는 시스템적 취약성을 만듭니다. 행동 평가에 의존하여 높은 위험도의 안전 주장을 하는 규제 당국 및 이사회는 측정하려는 속성을 감지할 수 없는 보증을 수용할 수 있으며, 이는 모델 규모가 커짐에 따라 증가하는 구조적 위험입니다.

필요한 조치

AI 거버넌스 프레임워크를 검토하여 행동 테스트를 통해 검증할 수 있는 속성과 기계적 접근을 필요로 하는 속성을 구분합니다. 컴플라이언스 전략이 높은 결과의 주장(예: 속임수 부재, 제한된 재앙적 능력)에 대해 전적으로 행동 평가에 의존하는 경우, 기계적 해석 가능성 방법으로 보충하거나 주장 범위를 증거 지원과 일치하도록 조정하는 것을 고려하십시오.