무슨 일이 있었나
vLLM 0.23.1rc0 이전에는 /v1/audio/transcriptions 엔드포인트가 압축된 업로드 크기를 제한하지만 디코딩된 PCM 출력은 제한하지 않습니다. 25 MB OPUS 파일은 디코드 시간에 약 14.9 GB의 float32 PCM으로 확장됩니다. 이로 인해 추론 서버의 메모리 소진 및 서비스 거부가 발생합니다. CVSS 6.5 중간, 게시 2026-06-22.
왜 중요한가
오디오 전사를 노출하는 모든 vLLM 배포는 정교한 OPUS 파일을 포함한 단일 인증되지 않은 요청으로 오프라인 상태가 될 수 있으며, 해당 인스턴스에서 제공하는 모든 LLM 추론이 중단됩니다. 이는 프로덕션 멀티모달 AI 서비스에 특히 영향을 미칩니다.
공격 경로
정교한 25 MB OPUS 파일을 /v1/audio/transcriptions에 POST하면 서버가 ~14.9 GB PCM으로 디코딩하여 메모리를 소진합니다.
영향받는 시스템
오디오 전사가 활성화된 vLLM 0.x부터 0.23.1rc0 미만
완화 방안
vLLM 0.23.1rc0 이상으로 업그레이드하세요. PR 수정: https://github.com/vllm-project/vllm/pull/44970