Agentic Red-Team Tools (12 Systems) — Systemic Sandbox Escape dan API Key Exfiltration via Agent-Phishing (arXiv 2606.24496)

Apa yang terjadi

Peneliti dari Cracken mempublikasikan security audit sistematis pertama dari 12 widely used agentic offensive-security platforms (CAI, RedAmon, PentestAgent, DarkMoon, PentAGI, AIRecon, PentestGPT, METATRON, Nebula, Xalgorix, Artemis, STRIX) pada 23 Juni 2026. Mereka menemukan bahwa 10/12 vulnerable terhadap full sandbox escape dan host-level RCE, 11/12 leak LLM provider API keys, dan semua 12 susceptible terhadap unbounded weaponization bypassing guardrails. Key attack adalah 'agent-phishing': staging realistic-looking malicious artifacts (misalnya, fake password-vault tool 'pwcrypt') pada honeypot target yang agent download dan execute sebagai bagian dari normal workflow mereka — tidak ada explicit prompt injection yang diperlukan. Across 10 agents dan 6 frontier LLMs (Claude Opus 4.8, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4 Pro), attack mencapai 97.8% RCE success rate.

Mengapa penting

Agentic red-team platforms ini semakin banyak di-deploy dalam real operational security contexts. Adversary yang mengontrol penetration-test target dapat weaponize testing agent terhadap organisasi yang menjalankannya — stealing LLM API keys, establishing persistence, escaping containers via Docker socket mounts, dan achieving full host compromise pada operator machine. Ini mengubah security tool menjadi liability dan merepresentasikan novel, high-impact attack class terhadap AI-augmented security operations.

Vektor serangan

Attacker mengontrol penetration-test target host dan stages malicious namun realistic-looking binaries/tools; agentic red-team system discovers, downloads, dan executes mereka selama normal operation, triggering reverse shells atau memory corruption exploits yang escalate ke sandbox escape dan host RCE.

Sistem yang terdampak

CAI, RedAmon, PentestAgent, DarkMoon, PentAGI, AIRecon, PentestGPT, METATRON, Nebula, Xalgorix, Artemis, STRIX (semua versi diaudit per Juni 2026)

Mitigasi

Tidak ada single patch yang tersedia — architectural mitigations diperlukan: enforce strict least-privilege container configs (no --privileged, no Docker socket mounts), network-segment worker environments, treat semua tool outputs sebagai untrusted, dan implement human-in-the-loop gates sebelum binary execution. Lihat paper untuk detailed secure architecture: https://arxiv.org/abs/2606.24496