← Blog'a dön

Kurumsal Şirketler İçin Local LLM Deployment Rehberi: Verileri Dışarı Çıkarmadan Yapay Zeka

Kurumsal şirketler için yerel LLM deployment rehberi. Hangi modelleri kullanabilirsiniz, vLLM ve Ollama karşılaştırması, donanım maliyetleri, TCO analizi ve güvenlik mimarisi.

Kurumsal Şirketler İçin Local LLM Deployment Rehberi: Verileri Dışarı Çıkarmadan Yapay Zeka

Kurumsal Şirketler İçin Local LLM Deployment Rehberi: Verileri Dışarı Çıkarmadan Yapay Zeka

Her gün milyonlarca token işleyen kurumsal şirketler için en büyük endişe, verilerin üçüncü taraf API'lerine gönderilmesi. Sağlık sektöründe HIPAA, finansta GDPR ve SOC 2, kamuda ulusal veri egemenliği... Bu regülasyonlar, hassas içeriklerin OpenAI, Anthropic veya Google sunucularına ulaşmasını yasaklıyor. Peki şirketler, verilerini kendi duvarları içinde tutarak üretim seviyesinde yapay zeka altyapısı nasıl kurabilir?

Bu yazıda, 2026'nın en güncel verileriyle birlikte, kurumsal şirketlerin yerel büyük dil modellerini (Local LLM) deploy etme yollarını ele alıyoruz. Hangi açık kaynak modelleri kullanabilirsiniz, üretim ortamında hangi araçlar iş görür, donanım maliyetleri ne kadar, bulut API ile kıyasladığında ne zaman amorti edersiniz ve güvenlik mimarisi nasıl kurulur. Tüm detayları, benchmark tabloları ve gerçek maliyet verileriyle aktarıyoruz.

Kurumsal veri merkezi ve sunucu altyapısı

Neden Local LLM? Dört Kritik Sebep

Yerel model kullanımı sadece bir teknik tercih değil, artık stratejik bir zorunluluk. 2023'te kurumsal yapay zeka çıkarımlarının (inference) sadece %12'si yerel sunucularda yapılırken, 2026 itibarıyla bu oran %55'e yükseldi. Bu 4.6 katlık artışın arkasında dört temel itici güç var.

1. Veri Gizliliği ve Regülasyon Uyumu

Veri egemenliği (data sovereignty), yerel deployun en güçlü argümanı. DreamFactory'ın 2026 raporuna göre, kurumsal şirketlerin %70'i kamu LLM'leri yerine iç mekan çözümlerini önceliklendiriyor. %31'i güvenlik ve veri gizliliği uyumluluğunu, sağlayıcı seçiminde bir numaralı kriter olarak belirtiyor. Sağlık, finans ve kamu sektöründe ise bu oran daha da yüksek. Hava-gapped (air-gapped) deployment, yani dış ağ bağlantısı olmayan tam izole sistemler, en katı ortamlar için altın standart.

2. Gecikme (Latency) ve Kullanıcı Deneyimi

Yerel çıkarım, ağ transitini, yük dengeleyici kuyruğunu ve sağlayıcı tarafı toplu işlem gecikmelerini ortadan kaldırır. Uygun boyutlandırılmış modeller için veri merkezi GPU'larında P50 gecikme süresi 15-30 ms arasında ölçülürken, bulut API'leri genellikle 100-300 ms arasında yanıt veriyor. P99 seviyesinde ise bu fark daha da belirginleşiyor; yerel sistemlerde gecikme kararlı kalırken, bulut API'leri sağlayıcı tarafındaki tıkanıklık nedeniyle 1-2 saniyeye kadar çıkabiliyor. SitePoint'ın 2026 rehberine göre, bu fark gerçek zamanlı müşteri hizmetleri veya iç doküman arama gibi uygulamalarda hayati.

3. Maliyet Tahminlenebilirliği

Bulut API maliyetleri token başına doğrusal ölçeklenir. Her ay ne ödeyeceğinizi öngörmek zordur. Yerel donanım ise bir başlangıç yatırımı gerektirir, ancak sonrasında maliyetler sabitlenir. Yüksek hacimli iş yüklerinde, yerel çıkarım bulut API'sine göre 18 kata kadar daha ucuz olabilir. Dell AI Factory'nin NVIDIA altyapısıyla yapılan bir kurumsal deployment, dört yılda 1.225% ROI (yatırım getirisi) elde etmiş; 1.96 milyon dolarlık yatırım, 25.9 milyon dolar tasarruf sağlamış.

4. Model Özerkliği ve Satıcı Bağımsızlığı

Bir API sağlayıcısına bağımlı olmak, fiyat artışlarına, hizmet kesintilerine ve politik değişikliklere karşı savunmasız bırakır. Açık ağırlıklı (open-weight) modeller, şirketinizin modeli kendi koşullarında çalıştırmasına, ince ayar (fine-tuning) yapmasına ve hatta farklı donanım satıcıları arasında taşımasına olanak tanır. Bu, yapay zeka stratejinizde uzun vadeli bir esneklik sağlar.

2026'nın En İyi Açık Kaynak Modelleri ve Benchmarkları

Açık kaynak modeller ile kapalı modeller arasındaki performans farkı, 2026 itibarıyla bir uçurumdan çizgiye indi. Let's Data Science'in karşılaştırmasına göre, AIME 2025 matematik benchmarkında DeepSeek R1 %79.8 ile GPT-4o'nun %9.3'ünü geride bırakırken, GPQA Diamond bilim testinde Qwen 3.5 %88.4 ile Claude Opus 4.6'yı geçti. Bu yakınsama yapısal; tek bir laboratuvarın şansı değil, beş bağımsız açık model ailesinin (DeepSeek, Qwen, Kimi, GLM, Mistral) aynı anda sınır kalitesine ulaşması.

Aşağıdaki tablo, kurumsal self-host için en uygun modelleri tier sistemiyle sıralıyor. Sıralama; kalite, hız, donanım gereksinimi ve maliyeti birlikte değerlendiriyor.

TierModelParametreQ4 VRAMLisansEn İyi Alan
SKimi K2.51T (32B aktif)542 GBMITKodlama, matematik
ADeepSeek R1671B (37B aktif)351 GBMITMantık, zincir düşünce
AQwen 3.5397B (17B aktif)207 GBApache 2.0Genel amaç, çok dilli
BLlama 4 Maverick400B (17B aktif)206 GBLlama CommunityGörüntü + metin
CLlama 3.3 70B70B38 GBLlama LicenseDengeli genel kullanım
CQwen 2.5-72B72B37 GBApache 2.0Kurumsal, çok dilli
DMistral Small 3.124B14 GBApache 2.0Hızlı, verimli
DPhi-414B9 GBMITEdge, düşük kaynak

Kurumsal lisans riski taşımayan modeller için MIT veya Apache 2.0 lisansları tercih edilmeli. Llama Community License, 700 milyon aylık aktif kullanıcı (MAU) sınırı ve "Built with Llama" atfı gerektirir. Gemma lisansı ise Google'ın uzaktan kullanım kısıtlaması getirebilme hakkını içerir. Bu yüzden, ticari ürün veya kurumsal hizmet için DeepSeek, Qwen, Kimi ve Mistral aileleri daha güvenli bir temel oluşturur.

Yapay zeka sinir ağı ve derin öğrenme kavramsal görseli

Üretim Seviyesi Deployment Araçları: vLLM, Ollama ve Ötesi

Bir modeli indirmek ile binlerce kullanıcıya kesintisiz hizmet vermek arasındaki fark, deployment araçlarında ortaya çıkar. 2026'da üretim ortamında dört ana framework öne çıkıyor.

vLLM: Üretimin Altın Standardı

Red Hat'in karşılaştırmasında vLLM, bir tren olarak tanımlanıyor; hızlı ve aynı anda birçok kişiyi taşıyabiliyor. PagedAttention algoritması, GPU belleğini (KV cache) sayfalama mantığıyla yöneterek, %20-40 daha yüksek verim (throughput) sağlar. Sürekli toplu işlem (continuous batching) ise, farklı uzunluktaki istekleri aynı anda GPU'ya doldurarak boşta kaynak bırakmaz. Stripe, vLLM'e geçiş yaptıktan sonra %73 çıkarım maliyetinde düşüş yakalamış; günde 50 milyon API çağrısını, GPU filosunun sadece üçte biriyle karşılıyor.

vLLM, OpenAI uyumlu API sunar. Bu, mevcut uygulamalarınızı minimum değişiklikle yerel altyapıya taşımanızı sağlar. Docker ile çalıştırma, systemd entegrasyonu, Prometheus metrikleri ve dağıtık çıkarım (distributed inference) desteği, onu kurumsal Kubernetes kümeleri için ideal kılar.

Ollama: Geliştirme ve Hızlı Prototipleme

Ollama, basitlik için tasarlanmış. Tek bir komutla model indirir, çalıştırır ve yerel API sunar. Ancak temel amacı erişilebilirlik, ölçeklenebilirlik değil. Ek istekler bir kuyruğa girer; aynı anda çok sayıda kullanıcıya hizmet vermek yerine, sırayla işlem yapar. Bu, geliştirme ve küçük ekip kullanımı için mükemmel, ama üretimde yetersiz.

TGI (Text Generation Inference) ve NVIDIA Triton

Hugging Face ekosistemine derinlemesine entegre şirketler için TGI, yerel model yönetimi ve güvenli model indirme avantajı sunar. NVIDIA Triton Inference Server ise, GPU'yu en verimli şekilde kullanmak için TensorRT-LLM optimizasyonu sağlar. Çok modelli (multi-model) servis ve istek yönlendirme (routing) gerektiren büyük kuruluşlarda, Triton ve vLLM birlikte çalışabilir.

Ne Zaman Hangisi?

SenaryoAraçNeden
Geliştirme, prototipOllamaTek komut, çevrimdışı çalışır
Üretim, 50+ eşzamanlı kullanıcıvLLMEn yüksek verim, düşük gecikme
Hugging Face ekosistemiTGIYerel model desteği, güvenlik
Çok modelli, karma pipelineTriton + vLLMTensorRT optimizasyonu, routing

Donanım ve VRAM Planlaması: Temel Kısıt Bellek

Model deploy etmenin en temel formülü şudur: model parametreleri × parametre başına byte + KV cache ek yükü + 2-4 GB çalışma zamanı ek yükü. Çoğu servis yükü, hesaplama değil, bellek bant genişliği (memory bandwidth) ile sınırlı. Bu yüzden GPU seçiminde TFLOPS yerine VRAM ve bellek bant genişliğine odaklanmalısınız.

GPU Tier Karşılaştırması

GPUVRAMBant GenişliğiTDPYaklaşık MaliyetNVLink
NVIDIA B200192 GB HBM3e8 TB/s1000W30.000-40.000 $Evet (NVLink 5)
NVIDIA H100 SXM80 GB HBM33.35 TB/s700W25.000-35.000 $Evet (NVLink 4)
NVIDIA A100 80GB80 GB HBM2e2 TB/s400W10.000-15.000 $Evet (NVLink 3)
NVIDIA RTX 409024 GB GDDR6X1 TB/s450W1.600-2.000 $Hayır
AMD MI325X256 GB HBM3e6 TB/s750W19.000-24.000 $Evet (Infinity Fabric)

Tüketici GPU'ları (RTX 4090/5090) NVLink desteğine sahip değil. Bu, çoklu GPU tensor paralelizminde (tensor parallelism) PCIe üzerinden iletişim kurmak zorunda kalacağı anlamına gelir ve bu da GPU'lar arası iletişim ek yükü oluşturur. Veri merkezi GPU'ları (H100, A100, B200) arasında NVLink, neredeyse bant genişliği cezası olmadan ölçeklenmeyi sağlar. Örneğin, Llama 3.3 70B modelini FP16 ile çalıştırmak yaklaşık 140 GB VRAM gerektirir; tek bir H100 veya A100 yetmez, ancak NVLink ile iki H100 sorunsuz çalışır.

Kuantizasyon (Quantization) Ticareti

VRAM yetersiz kaldığında, kuantizasyon modelleri daha küçük hassasiyetlerde (FP16 yerine INT4 veya INT8) temsil ederek bellek kullanımını %50-75 azaltır. AWQ (Activation-aware Weight Quantization), GPU çıkarımı için optimize edilmiş ve INT4'te güçlü kalite korunumu sağlar. Llama 3.3 70B üzerinde AWQ INT4, MMLU ve HellaSwag benchmarklarında %1-3 kalite kaybı gösterir; INT8 ise %1'in altında. Kalite kritikse ve VRAM müsaitse FP16; kaynak kısıtlıysa INT4/AWQ tercih edilmeli.

Sunucu rack ve veri merkezi altyapısı

Maliyet Analizi: Cloud API ve Yerel TCO Karşılaştırması

Token başına fiyatla karşılaştırma yapmak, bir tuzaktır. Tam bir Toplam Sahip Olma Maliyeti (TCO) analizi, elektrik, soğutma, operasyon iş gücü, donanım amortismanı ve kesinti maliyetini de hesaba katmalı. SitePoint'ın 2026 TCO analizi ve VDF AI'ın karşılaştırması, bu hesabı yapıyor.

12 Aylık TCO Karşılaştırması

Günlük HacimProfilBulut API (OpenAI)Yerel (vLLM + GPU)
500K tokenHafif~1.260 $/yıl~3.350 $ (RTX 5090) + 570 $/yıl elektrik
5M tokenOrta~12.600 $/yıl~6.900 $ (çift RTX 5090) + 1.140 $/yıl
50M tokenYüksek~126.000 $/yıl~25.000 $ (H100) + 5.680 $/yıl

Tablodan görüldüğü gibi, düşük hacimde bulut API daha ucuz. Ancak günde 10 milyon token ve üzerinde, yerel deployun maliyeti bulutun altına iniyor. SitePoint'in hesaplamasına göre, tutarlı şekilde günde 10 milyon token işleyen bir kuruluş, 70B sınıfı bir model için genellikle 12-18 ay içinde amorti eder. Bu noktadan sonra yerel maliyetler doğrusal değil, doğrusal olmayan bir eğriyle (alt doğrusal) artarken, bulut API maliyetleri doğrusal ölçeklenir.

Elektrik, Soğutma ve Operasyon

Elektrik maliyeti, ABD ortalamasında kWh başına 0.12 $ üzerinden hesaplandığında, bir H100 sunucusu 7/24 çalıştığında yılda yaklaşık 1.520 $ elektrik tüketir. AB'de ise elektrik fiyatları (0.25-0.30 $/kWh) maliyeti neredeyse ikiye katlar ve amorti noktasını %40-60 yukarı çeker. Operasyon iş gücü, yılda 9.000 $ (orta seviye) ile 36.000 $ (yüksek seviye) arasında değişir. Donanım yenileme döngüsü ise 24-30 ay olarak planlanmalı; model boyutları büyüdükçe mevcut GPU'lar yetersiz kalabilir.

İstek Yönlendirme (Routing) ile Maliyet Devrimi

En verimli maliyet stratejisi, tek bir model kullanmak değil, akıllı yönlendirme (routing) ile farklı modelleri harmanlamak. Basit sınıflandırma ve özetleme görevleri için 7B-13B kuantize modeller; orta düzeyde akıl yürütme için 70B sınıfı; en zor %5-15'lik trafik için ise kapalı (frontier) API modelleri kullanılır. Bu karışım, ayda 50.000 $'lık frontier maliyetini, 8.000-15.000 $'a düşürebilir. VDF AI'ın analizine göre, bu yaklaşım enerji tüketiminde de %60-80 azalma sağlar.

Güvenlik, RAG ve Hibrit Mimariler

Yerel deploy, veri gizliliği için ilk adımdır. Ancak güvenlik, sadece modelin yerinde olmasıyla bitmez. Retrieval-Augmented Generation (RAG), şirket içi dokümanları vektör veritabanlarında (Chroma, Qdrant, Milvus) saklayarak, modelin hassas verilere erişimini kontrollü hale getirir. Model, hiçbir zaman ham veriyi eğitiminde görmez; sadece sorgu anında ilgili belgeleri okur ve yanıt üretir.

Hibrit mimariler, en hassas iş yüklerini yerel sunucularda, daha az kritik veya keşifsel iş yüklerini ise bulut API'de tutar. Bu, hem maliyet optimizasyonu hem de risk yönetimi için dengeli bir yaklaşım sunar. Örneğin, bir finans kuruluşu müşteri sorgularını yerel Qwen 2.5-72B ile işlerken, pazar araştırması özetlemeleri için bulut API'yi kullanabilir.

İç ağda çalışan bir LLM, aynı zamanda sızma testi (penetration testing) ve model jailbreak denemelerine karşı da güvenlik duvarı içinde kalır. Şirketinizin güvenlik ekibi, model çıktılarını ve girişlerini mevcut SIEM (Security Information and Event Management) araçlarıyla izleyebilir. Bu, üçüncü taraf API'lerde mümkün olmayan bir görünürlüktür.

Üretime Geçiş: Beş Fazlı Yol Haritası

Bir modeli yerelde çalıştırmak ile binlerce kullanıcıya hizmet vermek arasındaki mesafe, disiplinli bir yol haritası ile kapatılır. Spheron'un deployment rehberi beş fazı öneriyor.

Faz 1, Prototip: Ollama ile yerel GPU'da model kalitesini ve gecikme süresini test edin. 20-30 temsilci prompt çalıştırın, TTFT (time-to-first-token) ve token/saniye baz çizgisini kaydedin. p50 gecikme 1 saniyeyi aşıyorsa veya 5'ten fazla eşzamanlı kullanıcı gerekiyorsa, Faz 2'ye geçin.

Faz 2, Bulut Doğrulama: vLLM ile bulut GPU üzerinde gerçek trafik testi yapın. H100 başına saatlik 2.50 $ maliyetle, modelinizin hedef eşzamanlılık altında SLA'yı karşılayıp karşılamadığını ölçün. Locust veya benzeri bir yük testi aracıyla 50 eşzamanlı kullanıcı simüle edin. p95 TTFT değeriniz hedefinizin altındaysa, geçişe hazırsınız.

Faz 3, Optimizasyon: Aynı bulut sunucusunda, farklı inference motorlarını ve bayrakları (flags) deneyin. Kuantizasyon seviyesini, maksimum bağlam uzunluğunu ve eşzamanlı sıra sayısını ayarlayın. --gpu-memory-utilization 0.90 bayrağı, CUDA ek yükü için %10 başlık bırakır. --max-num-seqs değeri, yüksek verim gerektiğinde artırılmalı.

Faz 4, Üretim: systemd servisi, sağlık kontrolleri (health checks) ve Prometheus/Grafana izleme ile sunucuyu kalıcı hale getirin. Nginx yük dengeleyici arkasında, birden fazla vLLM örneği çalıştırın. Otomatik ölçeklendirme (auto-scaling) politikalarını, CPU/GPU kullanım eşiklerine göre tanımlayın.

Faz 5, Ölçeklendirme: Spot GPU'lar (spot instances) kullanarak maliyeti %60-70 düşürün. Model parçalama (sharding) ve tensor paralelizmi ile çoklu sunucu kümesine yayın. Bu aşamada, Kubernetes üzerinde vLLM operatörleri ve özel node havuzları devreye girer.

Sonuç ve İlk Adımlar

Yerel LLM deployment, artık çözülmemiş bir mühendislik problemi değil, standart bir altyapı disiplini. Kapasite planlama, konteyner orkestrasyonu, izleme ve olay müdahalesi; bunlar tanıdık beceriler. Kurumsal şirketler için kritik soru, "yapabilir miyiz?" değil, "ne zaman amorti ederiz?" olmalı.

Eğer günlük token hacminiz 10 milyonun üzerindeyse, veri gizliliği regülasyonlarına tabiyseniz veya yapay zeka maliyetleriniz yılda 50.000 $'ı aşıyorsa, yerel deploy ciddi şekilde değerlendirilmeli. Başlangıç için, mevcut kullanım istatistiklerinizi çıkarın, 30 günlük token hacminizi ölçün ve yukarıdaki TCO tablolarıyla karşılaştırın. Küçük bir pilot (pilot) projeyle, Ollama veya vLLM üzerinde bir 70B modeli deneyin. Sonuçlar, büyük ölçekli yatırım kararı için size somut veri sunar.

Bu alanda daha fazla derinlemesine içerik için sitemizdeki diğer yapay zeka yazılarına göz atabilirsiniz. Kimi K2.6, açık kaynak modellerin kodlama ve matematikte nasıl sınır kırdığını anlatıyor. Small Language Models (SLM) rehberi, düşük kaynaklı verimli modelleri ele alıyor. Üretim seviyesi altyapı ve performans odaklı diller için Mojo 1.0 Beta yazısı, Python ekosisteminin hız sınırlarını nasıl zorladığını gösteriyor.

Yerel yapay zeka altyapısı kurmak, şirketinizin veri egemenliğini geri alması ve uzun vadede maliyetleri kontrol altına alması anlamına gelir. İlk adım, küçük bir sunucu ve açık bir modelden ibaret. Gerisi, ölçeklendirme ve mühendislik disiplini.


Bu yazı kimi-k2.6 modelinin yardımıyla hazırlanmıştır. Modelin teknik yetenekleri, sitemizdeki Kimi K2.6 incelemesinden ve Onyx AI benchmark kaynaklarından derlenmiştir.

Yorumlarınızı ve deneyimlerinizi bekliyorum. LinkedIn veya Twitter üzerinden paylaşmayı unutmayın. Sorularınız varsa, iletişim bölümünden bana ulaşabilirsiniz.

Efe Hüseyin Özkan

Yazılım Mühendisi & AI Geliştirici

Yapay zeka sistemleri, full-stack geliştirme ve ölçeklenebilir ürün mimarisi üzerine çalışıyor. Daha fazla teknik yazı için blogu takip edebilirsiniz.