Herramienta Gratuita
¿Mi Mac Puede Ejecutarlo?
La calculadora definitiva de memoria LLM para Mac. Estima el uso exacto de memoria, la velocidad de generación de tokens y la compatibilidad para tu configuración Apple Silicon.
1. Tu Hardware
2. Elige un Modelo
Ej: 8 para un modelo de 8B.
Menor precisión = menos memoria, leve pérdida de calidad.
Prompt + tokens generados combinados.
Secuencias paralelas (1 para chat).
Arquitectura Avanzada
Recomendados para Tu Mac
Desglose de Memoria
RAM Total Requerida
0.0 GB
Rendimiento (Est.)
~0 t/s
Tiempo al Primer Token
<0.5 s
Consumo Energético
0 W
Costo Est. / Hr
$0.00
CO₂ / Hr
0 gCO₂e
Inicio Rápido
Copia y pega en tu terminal para comenzar:
Preguntas Frecuentes
¿Cómo se calcula el rendimiento de tokens?
En Apple Silicon, la velocidad de inferencia está limitada por el ancho de banda de memoria. Dividimos el ancho de banda de tu chip por el tamaño del modelo cargado, y aplicamos un factor de eficiencia del framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
¿Por qué importa la versión de macOS?
macOS reserva memoria para el sistema. Sequoia y Tahoe reservan más que Sonoma debido a funciones de IA en el dispositivo. Esta calculadora tiene en cuenta la diferencia.
¿Por qué los frameworks usan diferente cantidad de RAM?
vLLM preasigna grandes bloques de caché KV para alta concurrencia. Ollama tiene sobrecarga del runtime Go (~600 MB). MLX y SGLang son backends más ligeros en C++/Python (~200 MB base).
¿Qué hace la cuantización?
La cuantización reduce la precisión de los pesos del modelo (ej: FP16 → INT4), reduciendo el uso de memoria 2–4×. A cambio hay una ligera pérdida de calidad, generalmente aceptable para chat y código.
¿Cómo se calculan los costos de energía y emisiones?
La potencia se deriva del TDP de tu chip bajo carga. El costo usa la tarifa eléctrica promedio global ($0.15/kWh). Las emisiones usan la intensidad de carbono promedio global (385 g CO₂e/kWh).
¿Puedo ejecutar modelos más grandes que mi RAM?
Técnicamente sí — macOS usará memoria swap en tu SSD. Pero el rendimiento cae a ~10% de lo normal, haciendo el chat en tiempo real inutilizable.