vLLM 稀疏张量验证缺失在多模态嵌入中 — 拒绝服务

事件经过

CVE-2026-56340 发布到 NVD 于 2026-06-20（CVSS 8.8 高）。vLLM 版本 0.10.2 至 0.12.x 在其多模态嵌入处理管道中缺少稀疏张量索引的输入验证。PyTorch 的默认配置出于性能目的禁用稀疏张量不变量检查，因此具有负索引或超出范围索引的精心制作的张量会无检测地通过处理，导致服务器崩溃。vLLM 0.13.0 中的修复在稀疏张量操作之前添加了显式验证。

影响分析

vLLM 是生产 AI 部署中使用的占主导地位的开源 LLM 推理引擎。可以向多模态 vLLM 端点提交嵌入请求的未经身份验证的攻击者可以用单个格式错误的请求导致推理服务器崩溃，导致该部署的所有用户完全拒绝服务。在多租户 GPU 推理环境中，这也会影响共享相同服务器的其他租户。

攻击途径

攻击者提交包含格式错误的稀疏张量（具有负索引或超出范围索引）的精心制作的嵌入请求。因为 PyTorch 默认禁用稀疏张量不变量检查并且 vLLM 在处理前不执行验证，格式错误的张量在多模态嵌入处理路径中触发未定义/崩溃行为，导致对推理服务器的拒绝服务

受影响系统

vLLM >= 0.10.2 且 < 0.13.0

缓解措施

将 vLLM 升级到 0.13.0 或更高版本。公告：https://github.com/vllm-project/vllm/security/advisories/GHSA-mcmc-2m55-j8jj