Strumento Gratuito
Il Mio Mac Ce la Fa?
Il calcolatore definitivo di memoria LLM per Mac. Stima l'impronta di memoria esatta, la velocità di generazione token e la compatibilità per la tua configurazione Apple Silicon.
1. Il Tuo Hardware
2. Scegli un Modello
Es: 8 per un modello 8B.
Meno precisione = meno memoria, lieve perdita di qualità.
Prompt + token generati combinati.
Sequenze parallele (1 per chat).
Architettura Avanzata
Consigliati per il Tuo Mac
Dettaglio Memoria
RAM Totale Richiesta
0.0 GB
Throughput (Stima)
~0 t/s
Tempo al Primo Token
<0.5 s
Consumo
0 W
Costo St. / Ora
$0.00
CO₂ / Ora
0 gCO₂e
Avvio Rapido
Copia e incolla nel terminale per iniziare:
Domande Frequenti
Come viene calcolato il throughput dei token?
Su Apple Silicon, la velocità di inferenza è limitata dalla larghezza di banda della memoria. Dividiamo la larghezza di banda del chip per la dimensione del modello caricato, applicando un fattore di efficienza del framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
Perché la versione di macOS è importante?
macOS riserva memoria per il sistema. Sequoia e Tahoe riservano più di Sonoma a causa delle funzionalità AI sul dispositivo. Questo calcolatore tiene conto della differenza.
Perché i framework usano quantità diverse di RAM?
vLLM prealloca grandi blocchi di cache KV per l'alta concorrenza. Ollama ha overhead del runtime Go (~600 MB). MLX e SGLang sono backend più snelli in C++/Python (~200 MB base).
Cosa fa la quantizzazione?
La quantizzazione riduce la precisione dei pesi del modello (es: FP16 → INT4), riducendo l'uso di memoria di 2–4×. Il compromesso è una lieve perdita di qualità, generalmente accettabile per chat e codice.
Come vengono calcolati potenza e emissioni?
La potenza è derivata dal TDP del chip sotto carico. Il costo usa la tariffa elettrica media globale ($0,15/kWh). Le emissioni usano l'intensità di carbonio media globale (385 g CO₂e/kWh).
Posso eseguire modelli più grandi della mia RAM?
Tecnicamente sì — macOS userà la memoria swap sull'SSD. Ma il throughput scende a ~10% del normale, rendendo la chat in tempo reale inutilizzabile.