정의
AI 에이전트가 신뢰하거나 따를 대상을 결정하는 규칙의 결함을 악용하는 공격입니다. 예를 들어, AI 에이전트가 화이트리스트에 있는 사용자의 지시만 수락하도록 구성되어 있지만, 그 화이트리스트가 공격자가 변경할 수 있는 필드(예: 표시 이름)를 확인하는 경우, 공격자는 신뢰할 수 있는 신원을 위장하고 승인되지 않은 지시를 발급할 수 있습니다.
왜 중요한가
많은 AI 에이전트 배포는 신뢰 경계를 적용하기 위해 간단한 메타데이터 기반 검사에 의존합니다. 연구 결과 이 패턴이 여러 메시징 플랫폼에서 동시에 손상되어 있으며, 이는 해당 채널의 공격자들이 기술적 악용 없이도 에이전트의 동작을 리디렉션할 수 있음을 의미합니다.