정의
NIST의 수학적으로 입증된 발견으로, AI 시스템에 적용된 유한한 안전 규칙의 집합은 모든 가능한 해로운 입력이나 출력을 차단할 수 없으며, 적대자가 우회할 수 있는 어떤 엣지 케이스가 항상 존재한다는 것입니다. 이는 AI 안전 가드레일이 일회성 수정이 아닌 지속적으로 업데이트되는 방어로 취급되어야 함을 의미합니다.
왜 중요한가
이사회와 규제 기관들은 때때로 AI 시스템이 안전 평가를 통과하면 영구적으로 안전하다고 가정합니다. NIST의 증명은 그 가정이 잘못되었음을 보여줍니다: 안전은 지속적인 모니터링, 레드팀 활동, 업데이트를 요구하는 지속적인 프로세스이지, 무한정 유효한 인증이 아닙니다.