Guardrails — AI Security Glossary

定义

围绕AI模型构建的安全过滤器和规则，用于防止其产生有害、离题或违反政策的输出。防护栏可以检查用户发送的内容、AI即将说出的内容，或两者兼有。它们可以由AI提供商、部署AI的公司或两者共同构建。

影响分析

防护栏是能力强大的AI与滥用之间的第一道防线，但研究已证明没有任何有限的防护栏集合是牢不可破的。必须随着新型攻击的出现而不断更新——矛盾的是，非常复杂的防护栏本身可能在拒绝服务攻击中被武器化。

参考资料

在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。