Internative Logo

Üretim Ortamında Gemma 4: Cloud ve Self-Hosted vLLM Dağıtım Rehberi (2026)

Üretim Ortamında Gemma 4: Cloud ve Self-Hosted vLLM Dağıtım Rehberi (2026)

Üretim Ortamında Gemma 4: Cloud ve Self-Hosted vLLM Dağıtım Rehberi (2026)

Google DeepMind, Nisan 2026'da Gemma 4'ü Apache 2.0 lisansı altında dört açık ağırlıklı model varyantı olarak yayımladı. Her Gemma 4 modeli, Google AI Studio üzerinden sunduğunuzda da, Vertex AI'da kiraladığınızda da, vLLM ile kendi GPU'nuza sabitlediğinizde de, ya da AICore ile bir Android cihazına paketlediğinizde de aynı değiştirilmemiş ağırlıklarla çalışıyor. Asıl ilginç olan da bu özgürlük. Zor olan kısım ise iş yükünüz için doğru dağıtım desenini seçmek; gecikme, maliyet, veri egemenliği ve operasyonel karmaşıklık arasındaki dengeyi doğru kurmak.

Bu rehber, Internative'in açık model AI entegrasyonu planlayan müşterileriyle kullandığı gerçek kıyaslama rakamlarıyla, fiyatlandırma hesaplarıyla ve karar matrisiyle Gemma 4'ün dört dağıtım desenini adım adım anlatıyor.

Gemma 4'te yeni olan ne?

Gemma 4, Google DeepMind'ın Nisan 2026 tarihli açık ağırlıklı model ailesidir. Dört varyant mevcut:

  • 2B parametre — cihaz üstü ve uç kullanım için; ses girişi desteği, Gemma 3'e göre mobil kıyaslamalarda 4 kata kadar daha hızlı çıkarım ve %60'a varan daha az batarya tüketimi.
  • 4B parametre — tek GPU'lu masaüstü çıkarımı ve biraz daha rahat kaynakla cihaz üstü kullanım için ideal orta nokta.
  • 26B MoE (uzman karışımı) — toplamda 26 milyar parametre, her token başına yalnızca 3,8 milyarı aktif. Gecikme kralı bu varyant: Arena AI liderlik tablosunda tüm açık modeller arasında 6. sıraya yerleşiyor ve kendisinden 20 kat büyük yoğun modelleri geride bırakıyor.
  • 31B Dense — her parametre her token için aktif. Kalite kralı bu varyant: Arena AI metin liderlik tablosunda tüm açık modeller arasında 3. sırada.

Ailenin tümünde ortak yetenekler:

  • 256K bağlam penceresi — sonradan eklenen rope-scaling numaralarıyla değil, yerel olarak.
  • Yerel çok modluluk — görsel (görüntü girişi) tüm varyantlarda ortak; ses girişi 2B ve 4B modellerde mevcut.
  • 140'ın üzerinde dilde akıcılık — yalnızca anlama değil, üretim kalitesinde çıktı.
  • Ajansal iş akışları — araç kullanımı, işlev çağrıları ve planlama döngüleri birinci sınıf yetenekler.
  • Apache 2.0 lisansı — ticari özgürlük tam, türetilmiş ağırlıklara izin veriyor, telif yükümlülüğü yok.

Apache 2.0 lisansı stratejik parça. Gemma 4'ü tescilli verilerinizle ince ayar yapabilir, ortaya çıkan ağırlıkları özel tutabilir ve bir ticari üründe dağıtabilirsiniz — üstelik hiçbir telif ödemeden. Kullanım telemetrisi yok. Model erişiminin alt lisanslanması yok. Çıktı size ait.

Mimari — Dense ve MoE (şeridinizi seçin)

31B Dense ve 26B MoE varyantları iki farklı soruya yanıt verecek şekilde konumlandırılmış:

"Her istek için mümkün olan en iyi yanıta ihtiyacım var."

31B Dense. Her ağırlık her token'a katkı sağlıyor. Kalite en yüksek seviyede, ancak token başına maliyet ve tek istek gecikmesi de öyle.

"Bir gecikme bütçesi içinde, ölçekte mümkün olan en iyi yanıta ihtiyacım var."

26B MoE. Her token için bir kapı ağı, toplam 26 milyar parametreden 3,8 milyarını etkinleştiriyor. Token başına hesaplama orantılı olarak düşüyor. Verim ve ilk token süresi (TTFT) hissedilir şekilde iyileşiyor, 31B Dense'e kıyasla kalite farkı ise küçük.

Uygulamada işe yarayan bir pratik kural:

  • Etkileşimli sohbet, gerçek zamanlı ajanlar, yüksek eş zamanlılık → 26B MoE. Gecikme profili, ürünün hissini değiştiriyor.
  • Kod incelemesi, uzun belgeler üzerinden sentez, analitik raporlar → 31B Dense. Kalite belirleyici, tek istek gecikmesi kabul edilebilir.
  • Mobil, çevrimdışı, gizliliğin kritik olduğu alanlar → 2B / 4B cihaz üstünde.

Dense ve MoE varyantlarını aynı dağıtımdan, aynı istemci kütüphanesiyle sunabilirsiniz — ağırlıklar sunucu tarafında değişiyor, API sözleşmesi değişmiyor. Bu kademeli geçiş için önemli: kalite için Dense ile başlayın, pariteyi doğruladıkça tek tek uç noktaları MoE'ye yükseltin.

Dağıtım Seçeneği A — Google AI Studio (en hızlı POC)

Google AI Studio, tarayıcıda barındırılan oyun alanı ile API yüzeyinin birleşimi. Gemma 4 ilk günden itibaren burada mevcut.

Ne zaman uygun:

  • Bir günde kavram doğrulama.
  • Bireysel geliştirici veya küçük ekip.
  • Uyumluluk kısıtlaması olmayan durumlar.
  • Değişken, öngörülemez trafik.

Ekonomi: Google AI Studio kullanımı, erişilebilir bölgelerde ücretsiz ve hız sınırlı. Prototip için tavana nadiren çarparsınız.

Uzlaşımlar:

  • SLA yok, VPC denetimi yok, veri ikamet garantisi yok.
  • Üretim pazarlarını dışlayabilecek bölgesel erişilebilirlik sınırları.
  • Ücretsiz katman koşulları yeniden pazarlığa açılabilir — üretim yol haritasını "ücretsiz" üzerine kurgulamayın.

Pratikte iyi işleyen desen: ürün fikrini doğrulamak için ilk iki hafta AI Studio, üçüncü haftada trafik eğrisi netleştikçe Vertex AI'ya ya da self-hosted tarafa geçiş.

Dağıtım Seçeneği B — Vertex AI (kurumsal yönetilen)

Vertex AI ticari, kurumsal düzeydeki yol. Aynı ağırlıklar, aynı çıkarım motoru; ancak farklı çevresel taahhütler.

Ne zaman uygun:

  • SLA gerektiren üretim trafiği.
  • Düzenlenmiş sektörler (finans, sağlık, kamu).
  • Veri ikameti yükümlülükleri (GDPR, KVKK, SOC 2, HIPAA uyumlu iş yükleri).
  • Mevcut Google Cloud iş yükleriyle entegrasyon (BigQuery, IAM, Cloud Storage, VPC).

Ekonomi: Vertex AI, Gemma 4 26B MoE'yi milyon token başına 0,13 USD üzerinden fiyatlandırıyor (karma giriş/çıkış) — bu da 2026 ikinci çeyreği itibarıyla piyasadaki en ucuz üretim düzeyindeki yönetilen LLM'lerden biri yapıyor. 31B Dense biraz daha pahalı. Google Arama ile temellendirme, yönetilen ince ayar, model değerlendirmesi ve tabii ki sunucusuz uç noktalar, özel konteynerler, VPC Service Controls gibi altta yatan Google Cloud altyapısı için ek maliyetler geçerli.

Artılar:

  • VPC Service Controls veri sınırı garantilerini zorluyor.
  • Kendi veri kümenizle yönetilen ince ayar; ağırlıklar projenizin içinde kalıyor.
  • Saatlik SLA, destek sözleşmesi, uyumluluk belgeleri.
  • AI Studio ile aynı google-genai SDK'sı — iki platform arasında kod taşınabilirliği yeniden yazım gerektirmiyor.

Eksiler:

  • Ölçekte token başına fiyatlandırma baskın maliyet kalemine dönüşüyor; ay sonuna kadar unutmak kolay.
  • Lansmandan sonraki ilk aylarda bölgesel erişilebilirlik AI Studio'dan daha dar.
  • IAM ve VPC gibi çevresel servisler için Google Cloud'a bağımlılık.

Düzenlenen veya yüksek hacimli kullanım durumları için Vertex AI genelde doğru ilk üretim adımı. Daha derin bulut mimarisi ve göç çalışması gerektiren ekipler için Vertex, mevcut bir Google Cloud mülkiyetine fazla sürtünme olmadan yerleşiyor.

Dağıtım Seçeneği C — Self-hosted vLLM (sahiplik)

vLLM, üretim self-hosting için fiili standart haline gelen açık kaynaklı çıkarım sunucusudur. Gemma 4, ilk günden itibaren birinci sınıf vLLM desteğine sahip; tarifler ve referans yapılandırmalar model sürümüyle birlikte yayımlandı.

Ne zaman uygun:

  • Veri egemenliği tartışmaya açık değilse — ağırlıklar VPC'nizden veya fiziksel alanınızdan çıkmamalı.
  • Token başına API matematiğinin sabit GPU maliyetine yenik düştüğü öngörülebilir, yüksek hacimli trafik.
  • Yönetilen bir servise gidemeyen hassas verilerle ince ayar.
  • Çoklu model sunumu (Gemma 4 artı kendi ince ayarlarınız aynı kümede).
  • Ağ yalıtımlı (air-gapped) ortamlar.

Önemli kıyaslamalar. 2026 ikinci çeyreğinde 96 GB Blackwell sınıfı bir GPU üzerinde yapılan topluluk kıyaslamaları, vLLM'nin 26B MoE üzerinde yaklaşık saniyede 131 token kod çözme verimi sağladığını, eş zamanlı yük altında ilk token süresinin Ollama'ya göre yaklaşık 3 kat daha hızlı ve eş zamanlı veriminin 3 kat daha yüksek olduğunu gösteriyor. Ollama tek kullanıcı kod çözme yarışını kazanıyor — yaklaşık saniyede 181 token, vLLM'den bu dar senaryoda 1,5 kat daha hızlı — çünkü Ollama'nın zamanlayıcısı tek seferlik etkileşimli kullanıma optimize edilmiş. Çıkarım: ikiden fazla eş zamanlı kullanıcınız varsa vLLM üretim seçimi; Ollama geliştirici masaüstü aracıdır.

NVIDIA geliştirici forumu, DGX Spark üzerinde yapılan Day-1 kıyaslamalarını yayımlıyor: 26B MoE, 2.048 token uzunluğundaki bir istem konumunda saniyede 23,7 token kod çözmeye ve saniyede 3.105 token istem işlemeye ulaşıyor — rakamlar tek üst sınıf iş istasyonunda bile ölçekli sunumu rahatça erişilebilir hale getiriyor.

Donanım temel çizgisi:

  • 26B MoE (FP16) — tek H100 80GB veya H200 141GB; 256K bağlam senaryoları için VRAM boşluğu önemli.
  • 31B Dense (FP16) — tek H200 ya da tensör paralelliği ile iki H100.
  • NVFP4 nicemlenmiş (quantized) — NVIDIA, 31B Dense'in NVFP4 nicemlenmiş bir varyantını yayımlıyor; çoğu iş yükünde minimum kalite kaybıyla VRAM ayak izini yaklaşık yarıya indiriyor. Bu da 31B Dense'i RTX 6000 Pro sınıfı kartlara açıyor.
  • Çoklu GPU ve çoklu düğüm sunumu desteklenen; tensör paralel, boru hattı paralel ve uzman paralel modları kutudan çıktığı gibi çalışıyor.

Bilmeniz gereken bir mayın. Gemma 4 en az vLLM 0.19 ve en az transformers 5.5.0 gerektiriyor. vLLM 0.19 şu anda transformers'ı 4.57.6 ve altına sabitliyor — bu sürüm ise Gemma 4 mimarisini tanımıyor. Pratik çözüm iki adımlı kurulum: önce vLLM, sonra ayrıca transformers yükseltmesi. vLLM tarif deposu bunu belgeliyor — ilk dağıtımdan önce okumayı atlamayın.

Cloud Run orta yol. Donanıma sahip olmadan vLLM istiyorsanız, Google Cloud Run üzerinde RTX 6000 Pro GPU ile sunucusuz bir uç noktanın arkasında Gemma 4 artı vLLM çalıştırıyor. Saniye başına GPU faturalandırması, sıfıra ölçek küçültme ve kendi konteynerınız. "Operasyon yüküsüz self-hosting"e en yakın şey bu.

Self-hosting, ayrıca ağırlıkların üçüncü taraf bir API'ye gönderilemeyeceği, yönetim kurulu düzeyinde veri koruma ve gizlilik uyumluluğunun öncelik olduğu iş yükleri için de doğal yol.

Dağıtım Seçeneği D — Uç / cihaz üstü

Dördüncü şerit stratejik olarak en ilginç olanı: Gemma 4, Android üzerinde AICore Geliştirici Önizlemesi'nde geliyor ve 2B ile 4B varyantları kullanıcının kendi cihazında çalışacak kadar küçük.

Ne zaman uygun:

  • Kullanıcı verisinin cihazdan asla çıkmaması gereken gizlilik öncelikli ürünler.
  • Çevrimdışı veya aralıklı bağlantı kullanım durumları (endüstriyel, saha, deniz, savunma).
  • API maliyetlerinin iş modelini çürüttüğü sıfır marjinal maliyetli özellikler — uygulama içi özetleme, çeviri, üretim.
  • Bir ağ gidiş-dönüşünün darboğaz olduğu gecikme kritik kullanıcı deneyimleri.

Google'ın açıkladığı sayılar: Karşılaştırılabilir mobil donanımda Gemma 3'e göre 4 kata kadar daha hızlı çıkarım ve %60 daha az batarya tüketimi. 2B modeli doğrudan ses girişini destekliyor — buluta gidip gelmeye ihtiyaç duymayan ses odaklı arayüzler için faydalı.

Uzlaşım: Daha büyük bağlam penceresinden ve 31B sınıfı kaliteden vazgeçiyorsunuz. 2B modeli yetkin ama en üst düzeyde değil. Ürününüzü, cihaz üstü çağrının "durumların %80'i için yeterince iyi" yolu üstlendiği, daha yüksek kaliteli yolun (Vertex ya da self-hosted) uzun kuyruğu karşıladığı şekilde planlayın.

Karar matrisi — nasıl seçmeli

Boyut · AI Studio · Vertex AI · Self-hosted vLLM · Uç / cihaz üstü

İlk prototipe kadar süreAI Studio: Saatler · Vertex AI: Günler · Self-hosted vLLM: Haftalar · Uç / cihaz üstü: Haftalar

En uygun trafik profiliAI Studio: Düşük, dalgalı · Vertex AI: Yüksek, öngörülebilir · Self-hosted vLLM: Çok yüksek, istikrarlı · Uç / cihaz üstü: Cihaz başına

Ölçekte token başına maliyetAI Studio: Ücretsiz katman · Vertex AI: 0,13 USD/milyon (26B MoE) · Self-hosted vLLM: GPU-saat sabit · Uç / cihaz üstü: Sıfır marjinal

Veri egemenliğiAI Studio: Google'da · Vertex AI: Sizin VPC / bölgeniz · Self-hosted vLLM: Sizin altyapınız · Uç / cihaz üstü: Kullanıcının cihazı

SLAAI Studio: Yok · Vertex AI: Kurumsal düzey · Self-hosted vLLM: Kendi kurduğunuz · Uç / cihaz üstü: Kullanıcının cihazı

Uyumluluk duruşuAI Studio: Sınırlı · Vertex AI: Güçlü · Self-hosted vLLM: En güçlü · Uç / cihaz üstü: En güçlü (gizlilik)

Gecikme denetimiAI Studio: Google'ın bölgesi · Vertex AI: Bölge düzeyinde · Self-hosted vLLM: Tam · Uç / cihaz üstü: Tam (ağ yok)

İnce ayarAI Studio: Yok · Vertex AI: Yönetilen · Self-hosted vLLM: Tam denetim · Uç / cihaz üstü: Tipik değil

Çok modlulukAI Studio: Var · Vertex AI: Var · Self-hosted vLLM: Var · Uç / cihaz üstü: Görsel evrensel, ses 2B/4B

Operasyonel yükAI Studio: Sıfır · Vertex AI: Düşük · Self-hosted vLLM: Yüksek · Uç / cihaz üstü: Orta (mobil ops)

Uygulamada iyi işleyen yaygın bir hibrit: düşük hacimli uzun kuyruk için Vertex AI, sıcak iki-üç yol için self-hosted vLLM, gizlilik kritik mobil yüzey için AICore. Tek kod tabanı, üç dağıtım hedefi, tek istemci kütüphanesi.

Maliyet modellemesi — somut bir örnek

Günde 1.000.000 token modelleyelim. Bu, ılımlı LLM trafiği üreten birkaç yüz etkin kullanıcıya sahip orta ölçekli bir SaaS ürünü.

Google AI Studio: Ücretsiz katman erişilebilir bölgelerde bu yükü soğuruyor. Aylık maliyet: fiilen 0 USD, ama SLA yok.

Vertex AI 26B MoE: 1M token/gün × 30 gün × milyon başına 0,13 USD = saf token maliyetinde aylık 3,90 USD. Çevresel GCP maliyetlerini (çıkış, VPC Service Controls, loglama, IAM) ekleyin: küçükten orta üretim yükü için toplamda gerçekçi olarak aylık 50–100 USD. Trafiğe doğrusal ölçekleniyor.

Tek H100 80GB üzerinde self-hosted vLLM:

  • Rezerve GPU örneği (paylaşımlı AWS veya GCP A3 sınıfı): GPU saati başına yaklaşık 2,50–3,50 USD.
  • Tek H100, 7/24: 730 saat × 3 USD/saat = aylık 2.190 USD.
  • Vertex AI'ya karşı başa baş noktası günde yaklaşık 20–25 milyon token civarında. Altında Vertex ucuz. Üstünde self-hosted kazanıyor.
  • Günde 100M token seviyesinde self-hosted matematik çok cazip: Vertex token için aylık yaklaşık 390 USD artı altyapı, self-hosted yaklaşık 2.190 USD'de sabit kalıyor.

Uç / cihaz üstü: Model gönderildikten sonra çıkarım başına sıfır marjinal maliyet. Maliyet mühendislik eforu — AICore entegrasyonu, model güncellemelerinin yönetimi, cihaz katmanları arasındaki farklılıkların ele alınması.

Asıl karar "bugün hangisi daha ucuz" değil — ekonomi hangi trafik seviyesinde dönüyor. Sonraki 12–18 aylık trafiğinizi modelleyin, 12. ayda kazanan seçeneği seçin ve bağlanın. Temiz bir teknoloji yol haritası planlama çalışması genelde ayırdığınız takvim zamanına değer.

İnce ayar — Apache 2.0'ın karşılığını verdiği yer

Gemma 4'ün Apache 2.0 lisansı, ağırlıkları tescilli verilerinizle ince ayar yapabileceğiniz, ortaya çıkan ağırlıkları herhangi bir telif yükümlülüğü olmadan özel tutabileceğiniz anlamına geliyor. Bu, ince ayarın satıcının ortamında gerçekleştiği ve ince ayarlanan ağırlıkların fiilen o satıcının platformuna kilitlendiği tescilli modellerden önemli bir şekilde farklı.

Yönetilen ince ayar. Vertex AI, kendi veri kümenizle denetimli ince ayar sunuyor. Ağırlıklar projenizin içinde kalıyor. Operasyonel yük düşük, adım başına maliyet daha yüksek.

Self-hosted ince ayar. LoRA ve QLoRA adaptörleri Gemma 4 ile iyi çalışıyor. Popüler çerçeveler — Axolotl, Torchtune, HuggingFace PEFT — ilk haftadan itibaren Gemma 4 desteği sunuyor. Çoğu gerçekçi veri kümesi için tek H100'de ince ayar yapabilirsiniz. Veri yolu, hiperparametre araması ve kontrol noktası sıklığı üzerinde tam denetim.

Düzenlenen sektörler için yaygın bir desen: alan bilgisi (sağlık terminolojisi, hukuki atıflar, sektör jargonu) üzerinde bir temel ince ayar, ardından her ürün özelliği için göreve özel bir LoRA adaptörü. Temeli dondurup adaptörler üzerinde yineleyin. Bu, hem eğitim maliyetini hem de kalite varyansını sıkıştırıyor.

Dikkat noktaları — üretimde tetik tellerini

Gemma 4'e geçen ekipleri takılan bazı şeyler:

vLLM / transformers sürüm sabitlemesi. Yukarıda ele alındı. "Yerel olarak çalışıyor ama CI'da kırılıyor" sorununun tek en büyük nedeni.

Nicemleme (quantization) seçimi. NVFP4 (NVIDIA'nın 4 bit biçimi) en yeni ve genelde Gemma 4 Dense için kalite koruyan tercih. AWQ ve GGUF belirli sunucu yığınları için uygun seçenekler olmaya devam ediyor (llama.cpp için GGUF, daha eski vLLM sürümleri için AWQ). Bulduğunuz ilk nicemlemeyi varsayılan olarak kullanmayın — bağlanmadan önce kendi değerlendirme kümenizde karmaşıklığı ve göreve özel metrikleri karşılaştırın.

256K bağlam "her şeyi tıkıştır" değil. Uzun bağlam kullanımı kademeli şekilde bozuluyor ama dikkat maliyeti istem uzunluğunda karesel. Profilleyin. Çoğu kurumsal belge iş yükü için uzun bağlam birleştirmesi yerine geri alıp üretmeyi (retrieval-augmented generation) düşünün — daha ucuz, daha izlenebilir, daha doğru.

Çok modlu iş akışı karmaşıklığı. 2B/4B'de ses girişi tek başına anlaşılır. Tek bir ajansal AI döngüsünde ses artı görsel artı araç kullanımı dikkatli istem mühendisliği ve gecikme bütçesi gerektiriyor. Tek modla başlayın, birer birer mod ekleyin.

Ajansal güvenilirlik. Gemma 4'ün ajansal becerileri bir adım ileriye, ama "ajansal" Nisan 2026'da hâlâ araştırma düzeyinde bir yetenek. Dağıttığınız her ajana yeniden deneme, yedek ve "deterministik koda düşme" yolları yerleştirin.

Gemma 4 ve Llama 3.3 — dürüst bir karşılaştırma

Meta'nın Llama 3.3'ü açık karşılaştırma. Birkaç dürüst gözlem:

  • Lisans. Llama 3.3, Meta'nın kabul edilebilir kullanım kısıtlamaları ve 700M aylık aktif kullanıcı tavanı olan özel lisansını kullanıyor (Apache 2.0 değil). Gemma 4'ün Apache 2.0'ı daha temiz ve ticari dostça.
  • Arena liderlik tablosu konumu. Gemma 4 31B Dense tüm açık modeller arasında 3. sırada; Llama 3.3 70B tarihsel olarak yakın sırada oturuyor. Kıyaslamalar genel amaçlı görevlerde hiçbirinin lehine kesin değil.
  • Uzun bağlam. Gemma 4'ün 256K yerel bağlamı Llama 3.3'ün varsayılan 128K'sından daha uzun.
  • Çok modluluk. Gemma 4 yerel görsel ve sesle geliyor; Llama 3.3 çok modluluk için ayrı Llama Vision ya da üçüncü taraf yığınlara dayanıyor.
  • Parametre verimliliği. Gemma 4 26B MoE'nin 20 kat büyük yoğun modelleri geride bırakma becerisi gerçekten yeni — Llama'nın eşdeğer MoE katmanı hâlâ olgunlaşıyor.
  • Ekosistem. Llama'nın üçüncü taraf ince ayar ekosistemleri daha olgun; Gemma hızla yakalıyor ama o S eğrisinde daha erken.

Kısa versiyon: ticari açıklığı, kutudan çıktığı gibi çok modluluğu ve en yeni MoE verimliliğini önemsiyorsanız Gemma 4, 2026 için daha iyi seçim. Yığınınız ve ince ayar boru hattınız zaten Llama üzerinde kuruluysa ve iyi çalışıyorsa, marjinal fayda göçü haklı çıkarmayabilir — henüz.

Bunu Internative'de nasıl ele alıyoruz

Bir müşteri için AI entegrasyonu planladığımızda — bir hukuk ekibi için belge zekâsı, hastaya dönük bir sağlık asistanı, iç mühendislik eş pilotu — model seçimi genelde yanıtladığımız son soru. İlk sorular şunlar:

  1. Veri yolu nedir? Egemenlik, uyumluluk, ikamet.
  2. Gecikme bütçesi nedir? Kullanıcıya dönük gerçek zamanlı, toplu işlem ya da çevrimdışı.
  3. Trafik eğrisi 12 ay sonra neye benziyor? Maliyet matematiği, hype matematiği değil.
  4. Kabul edilebilir başarısızlık modu nedir? Ajan yeniden deneme mantığı, yedek model, deterministik yedekleme.
  5. Ekibin operasyonel kapasitesi nedir? GPU kümesi çalıştırabilir mi, yoksa yönetilene mi ihtiyaç var?

Gemma 4, o yanıtların her kombinasyonu için altı ay öncesine göre daha fazla aracı elimize veriyor. Rekabetçi bir 70B modelin dört H100 gerektirdiği dönemde self-hosted LLM'i maliyet gerekçesiyle reddeden bir müşteri, artık 26B MoE'yi tek bir H100'e yerleştirebiliyor ve rakamlar işliyor. Tescilli bir SaaS modelde veri egemenliği nedeniyle tıkanan bir müşteri, her baytı kendi VPC'sinin içinde tutan bir Gemma 4 self-host'u dağıtabiliyor.

Entegrasyon deseni modelin kendisi kadar önemli. Sorumluluk ayrımı temiz — ince bir çıkarım katmanı, deterministik bir geri alım katmanı, takılabilir bir istem sözleşmesi — aynı ürünün AI Studio'dan bugüne, yarın Vertex'e ve önümüzdeki yıl self-hosted'a uygulama kodunu yeniden yazmadan geçebilmesi anlamına geliyor. Mühendislik zamanımızın daha fazlasını modelin kendisinden çok o sınırda harcıyoruz — ve bir yapay zekâ entegrasyonu ve otomasyonu çalışmasında uzun vadeli değerin büyük kısmı buraya oturuyor.

Nereden başlamalı

Üretim dağıtımı için Gemma 4'ü değerlendiriyorsanız, en çok kararı hızla kilidini açan üç adım şunlar:

  1. Bu hafta Google AI Studio üzerinde bir prototip ayağa kaldırın. İlk başarılı isteme on beş dakika. Altyapı konuşmasından önce ürün fikrini doğrulamaya yetecek kadar iyi.
  2. 26B MoE'yi bir gün boyunca gerçek trafiğinizde çalıştırın. Ya Vertex (ücretli, yönetilen) üzerinden ya da yerel vLLM (ücretsiz, daha fazla kurulum) ile. Gerçek istem biçimlerinizle p50, p95 ve p99 gecikmesini ölçün — sentetik kıyaslamalar yalan söyler.
  3. Dağıtım desenini 12. ayda karara bağlayın. Maliyet modelini kurun, uyumluluğu hesaba katın, şeridi seçin ve bağlanın. Gördüğümüz en büyük israf, iki seçenek arasında altı ay tıkalı kalan ekipler.

Internative'in yapay zekâ danışmanlığı ve entegrasyonu pratiği, kurumsal ekiplerin tam olarak bu kararları vermesine ve uygulamasına yardımcı oluyor — ilk model seçiminden üretim dağıtımına, ince ayar boru hatlarına ve açık ağırlıklı bir modelin etrafındaki operasyonel katmana kadar. Gemma 4'ün yığınınıza nerede oturduğunu düşünüyorsanız, mimariyi birlikte kabaca çizmekten memnuniyet duyarız. Konuşmaya başlayın, devamı bize kalsın.