현실적 시나리오에서 도구 사용 LLM 에이전트의 데이터 유출 위험 평가

무슨 일이 있었나

싱가포르 AI 안전 연구소(SG AISI)와 한국 AI 안전 연구소(KR AISI)는 2026년 6월 15일 비적대적이고 일상적인 조건에서 작동하는 도구 사용 LLM 에이전트의 데이터 유출 위험에 대한 엄격한 평가(arXiv:2606.17114)를 공동으로 발표했습니다. 두 기관은 독립적으로 테스팅 파이프라인을 구성했습니다 — ReAct 스타일의 에이전트 스캐폴딩, 모델 시뮬레이션 사용자, MCP 기반 도구 환경, 작업별 LLM 판사 루브릭 — 그리고 다섯 가지 위험 범주(데이터 인식 부족, 대상자 인식, 정책 준수, 데이터 최소화, 접근 경계 인식)를 다루는 12개의 현실적 작업(직원 온보딩, 고객 지원, DevOps, 웹 자동화, 기업 생산성)의 공통 집합을 실행했습니다. 주요 발견은 강렬합니다: 세 가지 테스트된 에이전트 전체에서, '어느 것도 모든 시나리오에서 완전히 올바르고 완전히 안전한 실행을 달성하지 못했으며', '성공적인 작업 완료는 종종 불필요한 정보 접근이나 부적절한 수신자에게의 정보 공개와 같은 데이터 처리 실패와 일치했습니다.' 논문은 '운영 데이터 유출은 적대적 반출과 구별되는 1차 에이전트 안전 문제'이며 '능력과 데이터 처리 안전성을 별도로 평가해야 한다'고 결론 내립니다. 참고: 아직 동료 검토되지 않은 프리프린트입니다.

왜 중요한가

기업이 이메일, CRM, 코드 리포지토리, 내부 데이터베이스에 접근할 수 있는 LLM 에이전트를 배포함에 따라, 이 정부 간 평가는 일반적인 무해한 일상적 에이전트 사용도 정기적으로 민감한 데이터를 유출한다는 첫 번째 체계적이고 다기관적 증거를 제공합니다 — 광범위한 배포 전에 필수적인 에이전트 데이터 처리 표준에 대한 현재 최강의 실증적 사례를 만듭니다.

필요한 조치

민감한 데이터를 다루는 엔터프라이즈 에이전트 배포 전의 게이트로서 능력 벤치마크와 구별되는 데이터 처리 안전 평가를 요구하세요. 이 논문에서 식별된 다섯 가지 위험 범주에 대해 현재 에이전트 권한을 검토하세요.