Ollama

Yapay Zekâ & İleri Teknolojiler

Ollama

Ollama, büyük dil modellerini kendi dizüstünde, iş istasyonunda veya sunucunda çalıştırmayı son derece basitleştiren açık kaynaklı bir çalışma zamanıdır. Tek komut, tek ikili — ve Hugging Face uyumlu her model OpenAI tarzı bir API arkasından servis edilir.

Nedir?

Ollama; llama.cpp, GGUF kuantizasyon desteği ve bir HTTP sunucusunu tek ikili dosyada birleştiren yerel (local) bir LLM çalışma zamanı ve model yöneticisidir. macOS, Linux ve Windows'ta çalışır; bulut hesabı gerektirmeden localhost üzerinde OpenAI uyumlu API sunar.

Ne işe yarar?

Ollama, açık ağırlıklı modelleri `ollama run llama3` gibi tek satırlık bir komutla indirir, kuantize eder ve servis eder. Metal, CUDA veya ROCm üzerinden GPU hızlandırmasını yönetir; token streaming yapar, çok-modlu girdi destekler ve eşzamanlı oturumları — tek satır Python yazmadan — yönetir.

Nerede kullanılır?

Ollama; geliştirici LLM deneyleri ve cihaz-üstü AI prototiplemesi için fiilî giriş noktası hâline gelmiştir. Yerel-öncelikli kod asistanlarını, çevrimdışı chatbot'ları, gizlilik dostu RAG demolarını ve verinin sınırı terk etmemesi gereken havalı boşluklu (air-gapped) kurumsal pilotları güçlendirir.

Ne zaman ve neden ortaya çıktı?

Ollama, yerel LLM çıkarımını `docker run` kadar sürtünmesiz hâle getirmek için 2023'te yayımlandı. llama.cpp derleme, kuant formatı seçme ve HTTP sunucu bağlama karmaşasını soyutladı — ki bu süreç uzman olmayan geliştiricileri açık ağırlıklı modelleri denemekten alıkoyuyordu.

Internative'de neden kullanıyoruz?

Ollama'yı hızlı LLM kavram kanıtları, çevrimdışı demolar ve müşteri atölyeleri için kullanıyoruz — internet olmadan tamamen yerel çalışan bir dizüstü göstermek konuşmanın yönünü değiştiriyor. Üretim için yükleri vLLM tabanlı adanmış çıkarım altyapısına yükseltiyoruz, ancak keşif fazı çalışmalarımızın çoğu Ollama ile başlar.