vLLM

Yapay Zekâ & İleri Teknolojiler

vLLM

vLLM, büyük dil modelleri için yüksek verimli ve bellek-verimli açık kaynaklı bir çıkarım (inference) ve servis motorudur. PagedAttention, sürekli batching ve OpenAI uyumlu API ile üretim ortamındaki LLM dağıtımlarını güçlendirir.

Nedir?

vLLM, UC Berkeley tarafından geliştirilen açık kaynaklı bir LLM çıkarım sunucusudur; büyük dil modellerini son teknoloji verim (throughput) ve düşük gecikme ile servis eder. NVIDIA, AMD ve Intel GPU'larında çalışır ve OpenAI uyumlu REST API sunar.

Ne işe yarar?

vLLM, KV cache'i sanal bellek gibi yöneten PagedAttention ve uçuştaki batch'lere dinamik olarak yeni istek ekleyen sürekli batching ile GPU kullanımını en üst düzeye çıkarır. Sonuç: aynı kuyruk gecikmesinde naif çıkarım döngülerine göre 2–4 kat daha yüksek verim.

Nerede kullanılır?

vLLM birçok üretim AI ürününün çıkarım katmanını besler: sohbet asistanları, RAG hatları, kod üretim API'leri ve düzenlemeye tabi sektörler için on-premise LLM dağıtımları. Llama, Mistral, Qwen, DeepSeek, Gemma ve çoğu Hugging Face causal-LM mimarisini kutudan çıktığı gibi destekler.

Ne zaman ve neden ortaya çıktı?

vLLM, 2023'te erken Hugging Face Transformers çıkarımının verimsizliğini çözmek için yayımlandı: GPU belleği parçalanıyor ve eşzamanlı yük altında verim çöküyordu. PagedAttention, işletim sistemi sanal bellek fikirlerini ödünç aldı ve LLM servisi için sektör referans uygulaması hâline geldi.

Internative'de neden kullanıyoruz?

Açık ağırlıklı LLM'leri kendi GPU'larında barındırmak isteyen müşteriler için vLLM dağıtıyoruz — ister veri egemenliği uyumu, ister yüksek hacimde maliyet öngörülebilirliği, ister bulut API'lerinin karşılayamadığı gecikme bütçeleri olsun. LangChain ve FastAPI servis yığınlarımızla sorunsuz entegre olur.