Strumento Gratuito

Il Mio Mac Ce la Fa?

Il calcolatore definitivo di memoria LLM per Mac. Stima l'impronta di memoria esatta, la velocità di generazione token e la compatibilità per la tua configurazione Apple Silicon.

1. Il Tuo Hardware

Processore Mac

Memoria Unificata (RAM)

Versione macOS

Framework di Inferenza

2. Scegli un Modello

Cerca Modelli

Parametri (Miliardi)

Es: 8 per un modello 8B.

Quantizzazione / Precisione

Meno precisione = meno memoria, lieve perdita di qualità.

Finestra di Contesto (Token)

Prompt + token generati combinati.

Dimensione Batch

Sequenze parallele (1 per chat).

Architettura Avanzata

Livelli

Dimensione Nascosta

Teste di Attenzione

Teste KV (GQA/MQA)

Consigliati per il Tuo Mac

Dettaglio Memoria

RAM Totale Richiesta

0.0 GB

: 16 GB

Pesi del Modello 0.0 GB

Cache KV 0.0 GB

Overhead del Framework & Acts. 1.0 GB

Riserva macOS 2.0 GB

Eccellente — funziona comodamente con margine. Ideale per chat e contesto pesante.

Throughput (Stima)

~0 t/s

Tempo al Primo Token

<0.5 s

Consumo

0 W

Costo St. / Ora

$0.00

CO₂ / Ora

0 gCO₂e

Avvio Rapido

Copia e incolla nel terminale per iniziare:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

Domande Frequenti

Come viene calcolato il throughput dei token?

Su Apple Silicon, la velocità di inferenza è limitata dalla larghezza di banda della memoria. Dividiamo la larghezza di banda del chip per la dimensione del modello caricato, applicando un fattore di efficienza del framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

Perché la versione di macOS è importante?

macOS riserva memoria per il sistema. Sequoia e Tahoe riservano più di Sonoma a causa delle funzionalità AI sul dispositivo. Questo calcolatore tiene conto della differenza.

Perché i framework usano quantità diverse di RAM?

vLLM prealloca grandi blocchi di cache KV per l'alta concorrenza. Ollama ha overhead del runtime Go (~600 MB). MLX e SGLang sono backend più snelli in C++/Python (~200 MB base).

Cosa fa la quantizzazione?

La quantizzazione riduce la precisione dei pesi del modello (es: FP16 → INT4), riducendo l'uso di memoria di 2–4×. Il compromesso è una lieve perdita di qualità, generalmente accettabile per chat e codice.

Come vengono calcolati potenza e emissioni?

La potenza è derivata dal TDP del chip sotto carico. Il costo usa la tariffa elettrica media globale ($0,15/kWh). Le emissioni usano l'intensità di carbonio media globale (385 g CO₂e/kWh).

Posso eseguire modelli più grandi della mia RAM?

Tecnicamente sì — macOS userà la memoria swap sull'SSD. Ma il throughput scende a ~10% del normale, rendendo la chat in tempo reale inutilizzabile.