技术说明
Trend Micro研究人员披露了'Sockpuppeting',这是一种越狱技术,通过利用API助手预填充功能的单行代码绕过11个主要LLMs的安全护栏。成功提取了功能性恶意软件代码和机密系统提示。
攻击途径
通过标准API预填充功能向助手角色消息中注入虚假接受信息,利用模型的自一致性倾向继续输出被禁止的内容。仅需要支持助手预填充的API访问权限——无需模型权重、优化或专用工具。
受影响系统
GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash(最易受影响,ASR为15.7%)以及其他7个主要LLMs。三个模型在API层被阻止。
缓解措施
实施消息排序验证,在API层阻止助手角色消息。对已知攻击模式应用输出过滤。监控API使用情况以发现异常预填充模式。