Microsoft AI Red Team, 에이전트 AI 실패 모드 분류법 업데이트 — 12개월의 프로덕션 레드 티밍에서 나온 7가지 새로운 모드

무슨 일이 있었나

Microsoft의 AI Red Team은 6월 4일 에이전트 AI 시스템의 실패 모드에 대한 업데이트된 분류법을 발표했으며, Microsoft Security Copilot 및 MCP 에코시스템을 포함한 프로덕션 배포에 대한 1년간의 레드 팀 활동에서 파생된 7가지 새로운 카테고리를 추가했습니다. 새로운 카테고리는 다음과 같습니다: 에이전트 공급망 손상(agentic supply-chain compromise), 목표 하이재킹(goal hijacking), 에이전트 간 신뢰 상승(inter-agent trust escalation), 컴퓨터 사용 에이전트 시각 공격(computer-use agent visual attacks), 세션 컨텍스트 오염(session context contamination), MCP/플러그인 남용(MCP/plugin abuse), 및 기능/아키텍처 공개(capability/architecture disclosure). 해당 글은 오픈소스 에이전트 프레임워크(OpenClaw)가 336개의 확인된 악성 플러그인을 포함하면서 수천 개의 배포를 빠르게 축적한 방법을 설명하며, 에이전트 에코시스템이 보안 검토보다 빠르게 확장될 수 있음을 보여줍니다.

왜 중요한가

2025년 첫 번째 판(전망 기반)과 달리, 이 업데이트는 프로덕션의 확인된 익스플로잇 체인을 기반으로 합니다: 영점 클릭 데이터 유출 및 수평 이동은 초기 에이전트 배포 이외의 사용자 상호작용 없이 외부 출처 입력만으로 문서화되었습니다. 루프 내 인간 바이패스는 가장 많이 악용된 실패 모드로 식별되었으며, 승인 프롬프트가 의미 있는 보안을 제공한다는 가정에 직접적으로 도전합니다. Microsoft는 에이전트 SBOM 생성, 작업당 신원 검증, 및 도구 호출당 최소 권한 범위를 권장합니다.

필요한 조치

7가지 새로운 실패 모드를 배포된 에이전트 아키텍처에 매핑하십시오. 특히 인간 승인 프롬프트를 우회할 수 있는지 여부와 MCP/플러그인 레지스트리가 악성 항목에 대해 검토되었는지 여부를 감시하십시오.