提示注入作为角色混淆 — ICML 2026论文展示具有工作PoC的结构化LLM攻击类别

事件经过

Ye、Cui和Hadfield-Menell的论文在ICML 2026上被接受（arXiv:2603.12277），于2026年6月24-25日左右发布在网络上，证明了当前LLM主要通过写作风格和语调而非正式角色标签(system/user/tool)来识别消息角色。攻击者可以在工具输出或外部数据中嵌入模仿系统提示或用户转换文体特征的内容，导致模型将其执行为受信指令。该论文介绍了"思维链伪造" — 注入模型误以为是其自身先前思考的虚假思维链推理 — 并表明去风格化（改变注入内容的写作风格）可将攻击成功率从61%降低到约10%，确认了风格是主要信号。

影响分析

这是LLM感知角色方式中的结构性缺陷，而非可通过更好的系统提示措辞修补的提示工程问题。任何处理外部数据（网页、电子邮件、文档、工具输出）的已部署LLM代理都可能易受攻击。PoC显示了对前沿模型的高基线成功率（61%），并为之前的缓解措施失败原因提供了机制性解释。思维链伪造是对推理链模型（o1、Claude 3.x、Gemini 2.x）的新型攻击向量，其中虚构的内部思考可以引导自主行动。

攻击途径

工具输出、网页获取页面、电子邮件或文档中嵌入的恶意内容在文体上被格式化以模仿系统/用户角色标记，导致LLM代理执行注入的指令；思维链伪造变体注入虚假的推理跟踪

受影响系统

处理混合角色上下文窗口的所有主要LLM部署；特别是使用思维链推理的代理系统（GPT-4o、Claude、Gemini等）

缓解措施

在将工具/外部数据输出注入上下文窗口之前应用去风格化（将攻击成功率从61%降低到约10%）。将所有检索内容视为对抗性的。对代理执行进行沙箱处理。监视输出以获取异常指令跟随模式。目前没有可用的模型级补丁。论文：https://arxiv.org/abs/2603.12277