Sockpuppeting：通用单行越狱攻击影响11个主要LLMs

技术说明

Trend Micro研究人员披露了'Sockpuppeting'，这是一种越狱技术，通过利用API助手预填充功能的单行代码绕过11个主要LLMs的安全护栏。成功提取了功能性恶意软件代码和机密系统提示。

攻击途径

通过标准API预填充功能向助手角色消息中注入虚假接受信息，利用模型的自一致性倾向继续输出被禁止的内容。仅需要支持助手预填充的API访问权限——无需模型权重、优化或专用工具。

受影响系统

GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash（最易受影响，ASR为15.7%）以及其他7个主要LLMs。三个模型在API层被阻止。

缓解措施

实施消息排序验证，在API层阻止助手角色消息。对已知攻击模式应用输出过滤。监控API使用情况以发现异常预填充模式。