Position: AI Security Policy Should Target Systems, Not Models

무슨 일이 있었나

다기관 연구팀이 프리프린트(arXiv:2605.09504, 피어리뷰 미실시)를 발표했으며, AI 보안 정책이 개별 프론티어 모델에 대한 접근 제한에서 시스템 수준의 능력 평가로 주의를 전환해야 한다고 주장합니다. 논문은 두 가지 실험을 제시합니다: (1) 5개의 12억 파라미터 모델 무리가 GPT-4o에 대한 탈옥 공격에서 45.8%의 Effective Harm Rate을 달성하여 49개의 치명적 심각도 위반을 생성했고, (2) 동일한 모델들이 9개의 심어진 CWEs가 있는 취약한 C 애플리케이션에 대해 소스 코드 분석과 바이너리 퍼징을 결합 수행하여 정규식 패턴 감지 및 AddressSanitizer 기반 충돌 분류로 스캐폴딩했을 때 약 4분 내에 9개 중 9개 취약점(100% recall)을 복구했습니다(소비자급 MacBook 기준). 핵심 주장: "공격 능력(모델 접근 제한을 동기부여하는)은 주로 모델 주변의 스캐폴드에 위치하며 상용 하드웨어에서 소규모 오픈 가중치 모델로 재현 가능합니다."

왜 중요한가

공격 능력이 오픈 가중치 모델과 상용 하드웨어를 사용하여 효과적으로 비용 없이 재현 가능하다면, 개별 프론티어 모델에 대한 접근 제한은 거의 방어 가치를 제공하지 못합니다. 이는 Anthropic의 Mythos Preview와 같은 제한된 릴리스의 근거에 도전하며 AI 보안 정책이 모델 접근 단독이 아니라 시스템 아키텍처, 스캐폴딩 기술 및 배포 컨텍스트에 초점을 맞춰야 함을 시사합니다. 프리프린트이며 피어리뷰되지 않음—조사 결과를 예비적이지만 정책 관련성 있는 것으로 취급하세요.

필요한 조치

CISO 및 AI 보안 담당자는 프론티어 모델 또는 오픈 가중치 모델 사용 여부와 무관하게 Q3까지 스캐폴드 기반 공격 벡터에 대한 내부 보안 태세를 검토해야 합니다.