Ücretsiz Araç
Mac'im Çalıştırabilir Mi?
Mac'ler için kesin LLM bellek hesaplayıcı. Apple Silicon yapılandırmanız için bellek kullanımı, token üretim hızı ve uyumluluğu hesaplayın.
1. Donanımınız
2. Model Seçin
Örn: 8B model için 8.
Düşük hassasiyet = daha az bellek, hafif kalite kaybı.
Prompt + maksimum üretilen token toplamı.
Paralel diziler (sohbet için 1).
Gelişmiş Mimari
Mac'iniz İçin Önerilen
Bellek Dökümü
Toplam Gereken RAM
0.0 GB
Verim (Tahmini)
~0 t/s
İlk Token Süresi
<0.5 s
Güç Tüketimi
0 W
Tahmini Maliyet / Sa
$0.00
CO₂ / Sa
0 gCO₂e
Hızlı Başlangıç
Başlamak için terminale kopyalayıp yapıştırın:
Sıkça Sorulan Sorular
Token verimi nasıl hesaplanır?
Apple Silicon'da çıkarım hızı bellek bant genişliğiyle sınırlıdır. Çipinizin bant genişliğini yüklenen model boyutuna böler, ardından çerçeveye özgü verimlilik faktörü uygularız (MLX ≈ %85, Ollama ≈ %65, vLLM ≈ %70, SGLang ≈ %88).
macOS sürümü neden önemli?
macOS sistem için bellek ayırır. Sequoia ve Tahoe, cihaz üzerinde yapay zeka özellikleri nedeniyle Sonoma'dan daha fazla ayırır. Bu hesaplayıcı farkı hesaba katar.
Çerçeveler neden farklı miktarda RAM kullanır?
vLLM yüksek eşzamanlılık için büyük KV önbellek blokları önceden ayırır. Ollama Go çalışma zamanı yükü taşır (~600 MB). MLX ve SGLang daha yalın C++/Python arka uçlarıdır (~200 MB taban).
Kuantizasyon ne yapar?
Kuantizasyon model ağırlıklarının hassasiyetini düşürür (örn: FP16 → INT4), bellek kullanımını 2–4× azaltır. Karşılığında küçük bir kalite kaybı olur, genellikle sohbet ve kod görevleri için kabul edilebilir.
Güç ve maliyet tahminleri nasıl hesaplanır?
Güç, çipinizin yük altındaki TDP'sinden türetilir. Maliyet küresel ortalama elektrik fiyatını ($0,15/kWh), emisyonlar küresel ortalama şebeke karbon yoğunluğunu (385 g CO₂e/kWh) kullanır.
RAM'imden büyük modelleri çalıştırabilir miyim?
Teknik olarak evet — macOS SSD'nizdeki takas belleğini kullanır. Ancak verim normalin yaklaşık %10'una düşer, bu da gerçek zamanlı sohbeti kullanılamaz hale getirir.