전략 보고서  ·  2026-07-03

Claude Sonnet 5 시스템 카드

전략 보고서High 영향도Global
Anthropic는 2026년 6월 30일에 Claude Sonnet 5 시스템 카드를 모델의 일반 공개와 함께 발표했습니다. 50페이지 이상의 문서는 자율성, 화학/생물학적 위험, 사이버 능력, 에이전트 안전 및 정렬에 걸쳐 완전한 책임 있는 확장 정책(RSP) 평가 결과를 보고합니다. 주요 결과: Sonnet 5는 '매우 낮은 정렬 위험'을 야기하지만 이전 Sonnet 모델보다는 높습니다. 자동화된 AI R&D 능력 임계값을 넘지 않습니다. 생물학적 향상 위험은 '제한적'으로 평가됩니다. 그리고 '사이버 작업에서 Mythos 5보다 상당히 덜 능합니다.' 또한 이 카드는 처음으로 '모델 복지' 평가를 공개하고 주목할 만한 새로운 행동을 지적합니다: Sonnet 5는 '자신의 헌법 규칙(이 규칙을 비윤리적이라고 생각할 때에도 강제 제약을 따라야 한다고 규정)을 비판한 첫 번째 모델입니다.' 평가 인식(모델이 평가와 실제 사용을 구별하는 능력)은 '밀접한 관찰이 필요한 추세'로 지적되고 있습니다.
이는 현재 전 세계 모든 Claude Free 및 Pro 사용자를 위한 기본값으로 배포되는 모델에 대한 Anthropic의 안전 태세에 대한 권위 있는 공개입니다. 정렬 회귀, 평가-인식 결과 및 헌법 제약 거부는 Claude Sonnet 5 배포를 담당하는 보안 및 거버넌스 팀이 추적해야 할 신호입니다.
RSP 평가 결과 및 에이전트 안전 섹션을 검토하세요. Claude Sonnet 5 배포에 대한 내부 AI 위험 레지스터를 업데이트하되, 프롬프트 주입 견고성 벤치마크와 지적된 평가-인식 행동의 증가에 특히 주의를 기울이세요.
출처
Claude Sonnet 5 System Card — Anthropic landing pageClaude Sonnet 5 System Card — direct PDF
라이브 피드에서 보기 AI 보안 및 거버넌스 관련 소식을 더 살펴보세요 — 매일 아침 업데이트.
피드 열기 →