Herramienta Gratuita

¿Mi Mac Puede Ejecutarlo?

La calculadora definitiva de memoria LLM para Mac. Estima el uso exacto de memoria, la velocidad de generación de tokens y la compatibilidad para tu configuración Apple Silicon.

1. Tu Hardware

Procesador Mac

Memoria Unificada (RAM)

Versión de macOS

Framework de Inferencia

2. Elige un Modelo

Buscar Modelos

Parámetros (Miles de Millones)

Ej: 8 para un modelo de 8B.

Cuantización / Precisión

Menor precisión = menos memoria, leve pérdida de calidad.

Ventana de Contexto (Tokens)

Prompt + tokens generados combinados.

Tamaño de Lote

Secuencias paralelas (1 para chat).

Arquitectura Avanzada

Capas

Tamaño Oculto

Cabezas de Atención

Cabezas KV (GQA/MQA)

Desglose de Memoria

RAM Total Requerida

0.0 GB

: 16 GB

Pesos del Modelo 0.0 GB

Caché KV 0.0 GB

Sobrecarga del Framework & Acts. 1.0 GB

Reserva de macOS 2.0 GB

Excelente — funciona cómodamente con margen de sobra. Ideal para chat y contexto pesado.

Rendimiento (Est.)

~0 t/s

Tiempo al Primer Token

<0.5 s

Consumo Energético

0 W

Costo Est. / Hr

$0.00

CO₂ / Hr

0 gCO₂e

Inicio Rápido

Copia y pega en tu terminal para comenzar:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

Preguntas Frecuentes

¿Cómo se calcula el rendimiento de tokens?

En Apple Silicon, la velocidad de inferencia está limitada por el ancho de banda de memoria. Dividimos el ancho de banda de tu chip por el tamaño del modelo cargado, y aplicamos un factor de eficiencia del framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

¿Por qué importa la versión de macOS?

macOS reserva memoria para el sistema. Sequoia y Tahoe reservan más que Sonoma debido a funciones de IA en el dispositivo. Esta calculadora tiene en cuenta la diferencia.

¿Por qué los frameworks usan diferente cantidad de RAM?

vLLM preasigna grandes bloques de caché KV para alta concurrencia. Ollama tiene sobrecarga del runtime Go (~600 MB). MLX y SGLang son backends más ligeros en C++/Python (~200 MB base).

¿Qué hace la cuantización?

La cuantización reduce la precisión de los pesos del modelo (ej: FP16 → INT4), reduciendo el uso de memoria 2–4×. A cambio hay una ligera pérdida de calidad, generalmente aceptable para chat y código.

¿Cómo se calculan los costos de energía y emisiones?

La potencia se deriva del TDP de tu chip bajo carga. El costo usa la tarifa eléctrica promedio global ($0.15/kWh). Las emisiones usan la intensidad de carbono promedio global (385 g CO₂e/kWh).

¿Puedo ejecutar modelos más grandes que mi RAM?

Técnicamente sí — macOS usará memoria swap en tu SSD. Pero el rendimiento cae a ~10% de lo normal, haciendo el chat en tiempo real inutilizable.

1. Tu Hardware

2. Elige un Modelo

Recomendados para Tu Mac

Desglose de Memoria

Inicio Rápido

Preguntas Frecuentes