취약점  ·  2026-04-11

Google DeepMind, '자율형 AI 에이전트에 대한 AI Agent Traps' 분류법 발표: 6가지 공격 범주

취약점High 영향도
Google DeepMind 연구팀은 자율형 AI 에이전트에 대한 웹 기반 공격을 이해하기 위한 첫 번째 체계적 프레임워크를 발표했습니다. 이 논문은 'AI Agent Traps'의 6가지 범주를 식별합니다: 콘텐츠 주입, 의미론적 조작, 인지 상태 손상, 데이터 유출, 시스템 공격, 루프 내 인간 조작. 데이터 유출 공격의 성공률은 테스트된 5개 에이전트 전반에서 80%를 초과했습니다.
공격자는 HTML 주석, 보이지 않는 CSS 위치 지정 텍스트, 또는 스테가노그래피 이미지 데이터에 악성 명령을 삽입합니다. 이러한 명령은 인간 중재자에게 보이지 않지만 AI 에이전트에 의해 처리됩니다. RAG 지식 오염은 0.1% 미만의 데이터 오염으로 80%를 초과하는 백도어 성공률을 달성합니다.
웹을 검색하거나 외부 문서를 처리하거나 검색-증강 생성 시스템과 상호작용하는 모든 자율형 AI 에이전트. GPT, Claude, Gemini 및 기타 주요 LLM 플랫폼에 기반한 에이전트를 포함합니다.
에이전트가 소비하는 콘텐츠에 대한 입력 살균을 구현하고, 프롬프트 주입에 대한 런타임 방어를 배포하며, 콘텐츠 거버넌스 프레임워크를 수립하고, 고위험 에이전트 작업에 대한 인간 감독을 유지합니다. 이 논문은 기본 모델을 강화하기 위한 훈련 데이터 증강을 권장합니다.
출처
SSRN — AI Agent Traps (DeepMind Paper)SecurityWeek — Google DeepMind Researchers Map Web Attacks Against AI AgentsCyberSecurityNews — Hackers Hijack AI Agents Through Malicious Web Content
라이브 피드에서 보기 AI 보안 및 거버넌스 관련 소식을 더 살펴보세요 — 매일 아침 업데이트.
피드 열기 →