Yapay zeka modellerini çalıştırmak için bugüne kadar hep bulut altyapılarını, abonelik temelli servisleri, API hizmetlerini veya yüksek maliyetli GPU donanımlarına bağlı kaldık. Ancak tam bu noktada Microsoft bundan önce yine bulut hizmetlerini ayağımıza getiren bir model olan Azure Local’ de olduğu gibi yine local ortamlara yapay zeka getiren yeni bir platform tanıttı, ismi:
Microsoft Foundry Local
Peki nedir bu foundry local?
Foundry Local, tamamen açık kaynak ve tamamen yerelde çalışan bir AI çalışma ortamı. Abonelik yok, cloud dependency yok, authentication yok. Her şey cihazınızda, %100 size ait. Sanki hayal gibi değil mi? Tabi ki bu mevcut ekosistem için negatif bir durum değil, sonuçta hala ekosisteme bağlı ihtiyaçlarınız devam ediyor ancak makalemin ilerleyen bölümlerinde anlatacağım üzere farklı bir ihtiyaç için çok iyi bir çözüm sunuyor. Peki şimdi gelelim bu yeni platform’ un detaylarına. Öncelikle neden bu kadar önemli bir konu?
Bugün LLM’leri kullanmanın temel yolları genelde aşağıdaki gibidir; yani bu mevcut ve bildiğimiz bir durum.
-
OpenAI, Anthropic, Google Gemini gibi bulut tabanlı API’lar
-
HuggingFace + kendi GPU ortamınız (maliyetli çözümler, özellikle ilk yatırım bedeli yüksek)
-
Docker ile kurulumu zor, karmaşık yerel inference ortamları. Örnek bunu da bir kaç müşterimizde deneyimledik. Projeler çok uzun sürüyor, bulut temelli API veya platform kullanmadığımız için bilinen bazı şeyleri yerel olarak yapmak son derece zahmetli oluyor. Özellikle kamu gibi askeriye gibi internete kapalı ortamlarda çok tercih edilen bir yöntem.
Bu modeller ile bu güne kadar pek çok başarılı proje yaptık, sektörde de yapan pek çok meslektaşım var, ancak bu modelin her zaman bazı zayıf yanları oldu. Bunlar neler mi?
-
Veri gizliliği riskleri var, malum 2010 yılında bulut bilişim ilk çıktığında da benzer sorunlar yaşadı.
-
Bazı kurumlar veri dışarı çıkartamaz, buna iyi örnekleri yukarıda verdim, kamu başta bu durumda olan sektörler için uygun değil.
-
İnternet bağımlılığı işleri zorlaştırıyor çünkü özel sektör bile olsa örneğin savunma sanayi gibi yine internet baş düşman olabiliyor.
-
Subscription maliyetleri büyüyor, tabi ki rekabet ile bu rakamlar düşecek ancak şu anda pahalı bir dönemdeyiz.
-
Geliştiriciler her zaman bir sandbox ortamına ihtiyaç duyuyor, işte aslında bu yeni teknoloji için en önemli başlık bu. Neden derseniz bu yeni sistemi de kullanmayacak pek çok senaryo var.
Peki Microsoft ne yaptı?
“LLM modellerini kendi bilgisayarında çalıştırabilmelisin. Üstelik tek bir komutla.”
Aslında buradaki temel motivasyon yapay zeka geliştirme sürecini daha demokratik hale getirmek. Fikir inanılmaz güzel ve doğru. Prod ortamlar için hala büyük oyuncular, bulut altyapıları yüksek güçlü GPU makineleri şart ancak bir geliştirici için ilk günden bu yatırımları yapmak çok kolay değil. Normal bir yazılım geliştirme sürecini düşünün, kimsenin özel bilgisayarlara ihtiyacı yoktu, kendi imkanları ile sınırlı bilgisayar gücüne sahip donanımlarla bile inanılmaz kodlar yazan, sonra bu fikri prod ortama alacağı zaman koca koca makinelere ihtiyaç duyan sistemler yapay zeka içinde geçerli. Özetle buradaki ana gündem artık buluta gerek yok, GPU ya gerek yok her şey local’ de çalışacak mantığı değil. Ayrıca bu sadece teknik bir yenilik değil; geliştiriciler, kurumlar ve gizlilik odaklı projeler için tamamen yeni bir kapı aralıyor.
Peki Microsoft Foundry Local Nasıl Çalışıyor?
Foundry Local’ın mimarisi üç temel bileşenden oluşuyor:
1-Foundry Runtime – LLM Motoru
Arka planda ONNX Runtime + DirectML + CUDA gibi optimize edilmiş altyapılar çalışıyor. Bu sayede Windows, macOS ve Linux üzerinde CPU veya GPU ile inference yapabiliyorsunuz.
2-Model Registry – Modellerin Yerel Deposu
Tek komutla şu modelleri indirebiliyorsunuz: Phi-3 serisi, LLaMA modelleri, Mixtral, Gemma ve herhangi bir ONNX tabanlı model. Yani ister küçük modelleri latency için, ister büyük modelleri kalite için kullanabilirsiniz.
3-OpenAI-Compatible Local API
İşte oyunu değiştiren detay:
Foundry Local, cihazınızda bir API endpoint açıyor:
http://localhost:8000/v1
Bu endpoint, OpenAI API ile birebir uyumlu.
Yani üretimde OpenAI kullanıyorsanız, geliştirme sırasında sadece base URL değiştirerek devam edebiliyorsunuz.
Gelelim nasıl kuracağımıza, aslında buraya bayılacaksınız, kurulum inanılmaz kolay;
Windows ortamları için kod aşağıdaki gibidir;
winget install Microsoft.FoundryLocal
macOS için komut aşağıdaki gibidir;
brew install microsoft/foundrylocal/foundrylocal
ardından servisi başlatıyoruz;
foundrylocal start
Model indirmek için;
foundrylocal models add phi-3.8b
Aşağıda ise bir kaç tane örnek kod paylaşıyorum, işin ne kadar kolay olduğunu görmeniz için;
Python ile ChatCompletion
Productions kodunuz OpenAI SDK kullanıyorsa, tek fark base_url:


