Penjelasan teknis
Versi vLLM 0.8.0 dan yang lebih baru rentan terhadap serangan Out-of-Memory Denial of Service dalam metode VideoMediaIO.load_base64(). Saat memproses URL data video/jpeg, metode membagi string data base64 pada koma untuk mengekstrak frame JPEG tanpa memberlakukan batasan jumlah frame apa pun. Penyerang dapat membuat satu permintaan API yang berisi ribuan frame JPEG base64 yang dipisahkan koma, menyebabkan server mendekode semua frame ke dalam memori hingga crash. Kerentanan dapat diakses melalui titik akhir API penyelesaian obrolan yang kompatibel dengan OpenAI tanpa autentikasi.
Vektor serangan
Satu permintaan HTTP tanpa autentikasi ke titik akhir vLLM /v1/chat/completions dengan URL data video/jpeg yang dirancang berisi ribuan frame JPEG berkode base64 yang dipisahkan koma. Tidak ada autentikasi yang diperlukan jika API terekspos tanpa lapisan auth (umum dalam penyebaran yang dihosting sendiri).
Sistem yang terdampak
vLLM 0.8.0 dan semua versi yang lebih baru hingga setidaknya tanggal pengungkapan. vLLM adalah salah satu server inferensi LLM open-source yang paling banyak digunakan, digunakan untuk menghosting model termasuk Llama, Mistral, Qwen, dan lainnya di lingkungan enterprise dan cloud.
Mitigasi
Terapkan patch dari commit 58ee614 dalam repositori vLLM. Jika patching segera tidak memungkinkan: letakkan titik akhir inferensi vLLM di belakang gateway API yang terauthentikasi, terapkan batasan ukuran permintaan dan validasi input sebelum URL data video mencapai proses vLLM, dan aktifkan pemantauan OOM untuk mendeteksi upaya serangan.