Apa yang terjadi
Sebelum vLLM 0.23.1rc0, titik akhir /v1/audio/transcriptions membatasi ukuran unggahan yang dikompres tetapi bukan keluaran PCM yang didekodekan. File OPUS 25 MB berkembang menjadi sekitar 14,9 GB float32 PCM pada waktu dekode. Ini menyebabkan kelelahan memori dan penolakan layanan di server inferensi. CVSS 6.5 Medium, dipublikasikan 2026-06-22.
Mengapa penting
Penerapan vLLM apa pun yang mengekspos transkripsi audio dapat diambil offline oleh permintaan tanpa autentikasi tunggal yang berisi file OPUS yang dirancang, mengganggu semua inferensi LLM yang disajikan oleh instans tersebut. Ini sangat berdampak untuk layanan AI multimodal produksi.
Vektor serangan
POST file OPUS 25 MB yang dirancang ke /v1/audio/transcriptions; server mendekode ke ~14,9 GB PCM menguras memori
Sistem yang terdampak
vLLM 0.x hingga < 0.23.1rc0 dengan transkripsi audio diaktifkan
Mitigasi
Tingkatkan ke vLLM 0.23.1rc0 atau lebih baru. Perbaikan PR: https://github.com/vllm-project/vllm/pull/44970