에이전트식 레드팀 도구(12개 시스템) — 에이전트 피싱을 통한 시스템적 샌드박스 탈출 및 API 키 유출(arXiv 2606.24496)

무슨 일이 있었나

Cracken의 연구원들은 2026년 6월 23일 널리 사용되는 12개 에이전트식 공격 보안 플랫폼(CAI, RedAmon, PentestAgent, DarkMoon, PentAGI, AIRecon, PentestGPT, METATRON, Nebula, Xalgorix, Artemis, STRIX)의 첫 체계적 보안 감사를 게시했습니다. 그들은 10/12가 완전한 샌드박스 탈출 및 호스트 수준 RCE에 취약하고, 11/12가 LLM 제공업체 API 키를 유출하며, 모든 12개가 보안 조치를 우회하는 무제한 무기화에 취약함을 발견했습니다. 핵심 공격은 '에이전트 피싱'입니다: 에이전트가 일반적인 워크플로우의 일부로 다운로드하고 실행하는 허니팟 대상에 현실적으로 보이는 악의적 아티팩트(예: 가짜 비밀번호 보관소 도구 'pwcrypt')를 배치합니다 — 명시적 프롬프트 인젝션이 필요하지 않습니다. 10개 에이전트 및 6개 최신 LLM(Claude Opus 4.8, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4 Pro)에 걸쳐 이 공격은 97.8% RCE 성공률을 달성했습니다.

왜 중요한가

이러한 에이전트식 레드팀 플랫폼은 점점 더 실제 운영 보안 컨텍스트에 배포되고 있습니다. 침투 테스트 대상을 제어하는 적대자는 이를 실행하는 조직에 대해 테스트 에이전트를 무기화할 수 있습니다 — LLM API 키 도용, 지속성 확립, Docker 소켓 마운트를 통해 컨테이너 탈출, 운영자의 머신에서 완전한 호스트 손상을 달성합니다. 이는 보안 도구를 부채로 변환하고 AI 강화 보안 운영에 대한 새롭고 높은 영향의 공격 클래스를 나타냅니다.

공격 경로

공격자가 침투 테스트 대상 호스트를 제어하고 악의적이지만 현실적으로 보이는 바이너리/도구를 배치하며, 에이전트식 레드팀 시스템이 일반적인 작업 중에 이를 발견, 다운로드 및 실행하여 역방향 셸 또는 메모리 손상 익스플로잇을 트리거하여 샌드박스 탈출 및 호스트 RCE로 상승합니다.

영향받는 시스템

CAI, RedAmon, PentestAgent, DarkMoon, PentAGI, AIRecon, PentestGPT, METATRON, Nebula, Xalgorix, Artemis, STRIX (2026년 6월 현재 감사된 모든 버전)

완화 방안

단일 패치를 사용할 수 없습니다 — 아키텍처 완화 필요: 엄격한 최소 권한 컨테이너 구성 강제(--privileged 없음, Docker 소켓 마운트 없음), 네트워크 분리 워커 환경, 모든 도구 출력을 신뢰할 수 없는 것으로 취급, 바이너리 실행 전 휴먼인더루프 게이트 구현. 자세한 보안 아키텍처는 논문을 참조하십시오: https://arxiv.org/abs/2606.24496