漏洞  ·  2026-04-12

Sockpuppeting:通用单行越狱攻击影响11个主要LLMs

漏洞High 影响
Trend Micro研究人员披露了'Sockpuppeting',这是一种越狱技术,通过利用API助手预填充功能的单行代码绕过11个主要LLMs的安全护栏。成功提取了功能性恶意软件代码和机密系统提示。
通过标准API预填充功能向助手角色消息中注入虚假接受信息,利用模型的自一致性倾向继续输出被禁止的内容。仅需要支持助手预填充的API访问权限——无需模型权重、优化或专用工具。
GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash(最易受影响,ASR为15.7%)以及其他7个主要LLMs。三个模型在API层被阻止。
实施消息排序验证,在API层阻止助手角色消息。对已知攻击模式应用输出过滤。监控API使用情况以发现异常预填充模式。
来源
Trend Micro - Sockpuppeting How a Single Line Can Bypass LLM Safety GuardrailsCyberSecurity News - Single Line of Code Can Jailbreak 11 AI ModelsGBHackers - 11 AI Models Vulnerable to One-Line Jailbreak
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →