Google DeepMind, '자율형 AI 에이전트에 대한 AI Agent Traps' 분류법 발표: 6가지 공격 범주

기술 설명

Google DeepMind 연구팀은 자율형 AI 에이전트에 대한 웹 기반 공격을 이해하기 위한 첫 번째 체계적 프레임워크를 발표했습니다. 이 논문은 'AI Agent Traps'의 6가지 범주를 식별합니다: 콘텐츠 주입, 의미론적 조작, 인지 상태 손상, 데이터 유출, 시스템 공격, 루프 내 인간 조작. 데이터 유출 공격의 성공률은 테스트된 5개 에이전트 전반에서 80%를 초과했습니다.

공격 경로

공격자는 HTML 주석, 보이지 않는 CSS 위치 지정 텍스트, 또는 스테가노그래피 이미지 데이터에 악성 명령을 삽입합니다. 이러한 명령은 인간 중재자에게 보이지 않지만 AI 에이전트에 의해 처리됩니다. RAG 지식 오염은 0.1% 미만의 데이터 오염으로 80%를 초과하는 백도어 성공률을 달성합니다.

영향받는 시스템

웹을 검색하거나 외부 문서를 처리하거나 검색-증강 생성 시스템과 상호작용하는 모든 자율형 AI 에이전트. GPT, Claude, Gemini 및 기타 주요 LLM 플랫폼에 기반한 에이전트를 포함합니다.

완화 방안

에이전트가 소비하는 콘텐츠에 대한 입력 살균을 구현하고, 프롬프트 주입에 대한 런타임 방어를 배포하며, 콘텐츠 거버넌스 프레임워크를 수립하고, 고위험 에이전트 작업에 대한 인간 감독을 유지합니다. 이 논문은 기본 모델을 강화하기 위한 훈련 데이터 증강을 권장합니다.