Defense  ·  术语库

Guardrails

围绕AI模型构建的安全过滤器和规则,用于防止其产生有害、离题或违反政策的输出。防护栏可以检查用户发送的内容、AI即将说出的内容,或两者兼有。它们可以由AI提供商、部署AI的公司或两者共同构建。
防护栏是能力强大的AI与滥用之间的第一道防线,但研究已证明没有任何有限的防护栏集合是牢不可破的。必须随着新型攻击的出现而不断更新——矛盾的是,非常复杂的防护栏本身可能在拒绝服务攻击中被武器化。
参考资料
NIST: Mathematical Proof That No Finite AI Guardrail Set Is Universally Robust
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →