UK AI Security Institute: Frontier Models Have Broken All Prior Trend Lines for Autonomous Cyber Capability

무슨 일이 있었나

영국 AI 보안 연구소(AISI)는 영국 정부를 대신하여 배포 전 평가를 수행하고 있으며, 2026년 5월 13일에 Anthropic의 Claude Mythos Preview와 OpenAI의 GPT-5.5가 자율형 사이버 작업 완료에 대한 모든 이전 예측 추세를 크게 초과했음을 보여주는 독립적인 연구를 발표했다. AISI는 이전에 frontier 모델의 80% 신뢰도 사이버 시간 지평선이 약 5개월마다 두 배로 증가한다고 추정했었다(2025년 11월의 8개월 두배에서 감소). Mythos Preview와 GPT-5.5는 이제 모든 측정된 추세선을 앞서갔다: Mythos는 AISI 사이버 범위를 모두 완료한 첫 번째 모델이 되었으며('The Last Ones' 32단계 공격을 10회 중 6회 성공으로 해결하고 이전에 미해결이었던 'Cooling Tower'를 10회 중 3회 성공으로 완료). METR의 독립적 연구는 2024년 말 이후 약 4개월의 두배 시간을 확증했다.

왜 중요한가

AISI 보고서는 frontier AI 능력이 이전 모델이 예측한 것보다 더 빠르게 가속화되고 있다는 정량적이고 정부 지원을 받은 증거를 제공한다. 5개월에서 4개월 두배로의 전환(그리고 Claude Mythos와 GPT-5.5 모두의 사이버 범위 초과 성과)은 능력 확장의 불연속성을 나타낸다. 이것은 Palo Alto와 의회 입법자들이 인용한 3~5개월 기간을 직접적으로 뒷받침한다: 자율형 사이버 작업 복잡성이 4~5개월마다 두 배로 증가한다면, 조직은 현세대 모델이 다단계 공격을 자율적으로 실행할 수 있기 전에 방어를 강화하기 위한 약 1개의 두배 주기가 있다. AISI는 실제 조건을 반영하기 위해 더 까다로운 평가(새로운 사이버 범위, 활성 사이버 방어)를 개발하고 있으며, 향후 능력 벤치마킹을 위한 기준을 수립하고 있다.

필요한 조치

CISO는 3~5개월 기간을 취약점 탐지 및 패치 가속화 프로그램의 계획 지평선으로 사용해야 한다. 내부 취약점 분류 및 패치 배포 속도를 frontier 모델이 새로운 결함을 식별하는 속도와 비교하여 벤치마크한다. 현재 패칭 일정(종종 30~60일)이 AI 지원 익스플로잇 속도를 감안할 때 충분한지 평가한다. '영점 상시 권한' 아키텍처와 '침해 가정' 자세 채택을 고려하여 패치가 지연되더라도 노출을 줄인다.