定义 由内部或外部专门团队尝试使AI系统表现不良的做法:生成有害内容、泄露私人数据、被操纵或以安全关键的方式失败。这种做法借鉴了网络安全中的道德黑客实践,但专门针对AI系统进行了调整。 影响分析标准软件测试无法捕捉AI特定的故障模式。部署前的红队测试是组织发现其AI如何被滥用的主要方式,监管机构越来越期望看到已执行此操作的证据。