Attack  ·  术语库

Prompt injection

一种攻击方式,恶意指令被隐藏在AI阅读的文本中——例如文档、电子邮件或网页——欺骗AI忽略其原始指令,改为执行攻击者想要的操作。可以将其比作AI版本的伪造CEO备忘录并将其混入员工的收件箱。AI无法可靠地区分来自其运营商的合法指令和来自攻击者的伪造指令。
任何阅读或总结外部内容的AI——客户电子邮件、网页、上传的文档——都是潜在的攻击目标。一次成功的攻击可能导致AI泄露机密数据、执行未授权的操作或传播错误信息,而用户或运营商完全不知情。
参考资料
OWASP Top 10 for LLM Applications — LLM01: Prompt InjectionNIST CSRC Glossary: Prompt Injection
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →