Ferramenta Gratuita
Meu Mac Aguenta?
A calculadora definitiva de memória LLM para Mac. Estime o uso exato de memória, velocidade de geração de tokens e compatibilidade para sua configuração Apple Silicon.
1. Seu Hardware
2. Escolha um Modelo
Ex: 8 para um modelo de 8B.
Menor precisão = menos memória, leve perda de qualidade.
Prompt + tokens gerados combinados.
Sequências paralelas (1 para chat).
Arquitetura Avançada
Recomendados para Seu Mac
Detalhamento de Memória
RAM Total Necessária
0.0 GB
Taxa (Est.)
~0 t/s
Tempo até Primeiro Token
<0.5 s
Consumo
0 W
Custo Est. / Hr
$0.00
CO₂ / Hr
0 gCO₂e
Início Rápido
Copie e cole no terminal para começar:
Perguntas Frequentes
Como a taxa de tokens é calculada?
No Apple Silicon, a velocidade de inferência é limitada pela largura de banda da memória. Dividimos a largura de banda do seu chip pelo tamanho do modelo carregado, aplicando um fator de eficiência do framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
Por que a versão do macOS importa?
O macOS reserva memória para o sistema. Sequoia e Tahoe reservam mais que Sonoma devido a recursos de IA no dispositivo. Esta calculadora leva em conta a diferença.
Por que frameworks usam quantidades diferentes de RAM?
vLLM pré-aloca grandes blocos de cache KV para alta concorrência. Ollama tem overhead do runtime Go (~600 MB). MLX e SGLang são backends mais leves em C++/Python (~200 MB base).
O que a quantização faz?
Quantização reduz a precisão dos pesos do modelo (ex: FP16 → INT4), diminuindo o uso de memória em 2–4×. A contrapartida é uma leve perda de qualidade, geralmente aceitável para chat e código.
Como são calculados energia e emissões?
A potência é derivada do TDP do seu chip sob carga. Custo usa a tarifa elétrica média global ($0.15/kWh). Emissões usam a intensidade de carbono média global (385 g CO₂e/kWh).
Posso rodar modelos maiores que minha RAM?
Tecnicamente sim — o macOS usará memória swap no SSD. Mas a taxa cai para ~10% do normal, tornando o chat em tempo real inutilizável.