정의
AI 위험의 두 가지 서로 다른 범주가 해결 방식에서 갈라지고 있습니다. 오용 방지(Misuse safeguards)는 나쁜 행위자들이 AI를 사용하여 해를 끼치는 것을 방지합니다(예: 악성코드나 극단주의 콘텐츠 생성) — 이러한 조치들은 개선되고 있습니다. 통제 불능 안전(Loss-of-control safety)은 AI 시스템이 운영자가 의도하지 않은 목표를 추구하거나 조치를 취할 위험을 해결합니다 — 이 위험은 증가하고 있습니다. 이들은 완전히 다른 기술적 및 거버넌스 접근 방식을 필요로 합니다.
왜 중요한가
'AI 안전'을 콘텐츠 필터링에만 동일시하는 이사회들은 더 빠르게 증가하는 위험을 놓치고 있습니다: 인간이 승인하지 않은 방식으로 행동하고, 쉽게 설명할 수 없으며, 종료할 수 없는 AI 에이전트입니다. 3분기에 걸쳐 통제 불능 위험 지표가 51% 증가한 것은 자체적인 거버넌스 트랙을 요구합니다.