Defense  ·  용어집

Guardrails

AI 모델 주위에 구축된 안전 필터 및 규칙으로, 해롭거나 주제를 벗어나거나 정책을 위반하는 결과물 생성을 방지합니다. 가드레일은 사용자가 보내는 내용, AI가 말하려고 하는 내용, 또는 둘 다를 확인할 수 있습니다. AI 제공업체, AI를 배포하는 회사, 또는 둘이 함께 협력하여 구축할 수 있습니다.
가드레일은 능력 있는 AI와 오용 사이의 주요 방어선이지만, 연구에 따르면 깨지지 않는 유한한 가드레일 집합은 없습니다. 새로운 공격이 나타남에 따라 지속적으로 업데이트되어야 하며, 역설적이게도 매우 정교한 가드레일 자체가 서비스 거부 공격에서 무기화될 수 있습니다.
참고 자료
NIST: Mathematical Proof That No Finite AI Guardrail Set Is Universally Robust
라이브 피드에서 추적 이 개념이 실제 AI 보안·거버넌스 동향에서 어떻게 나타나는지 확인하세요.
피드 열기 →