Ferramenta Gratuita

Meu Mac Aguenta?

A calculadora definitiva de memória LLM para Mac. Estime o uso exato de memória, velocidade de geração de tokens e compatibilidade para sua configuração Apple Silicon.

1. Seu Hardware

Processador Mac

Memória Unificada (RAM)

Versão do macOS

Framework de Inferência

2. Escolha um Modelo

Buscar Modelos

Parâmetros (Bilhões)

Ex: 8 para um modelo de 8B.

Quantização / Precisão

Menor precisão = menos memória, leve perda de qualidade.

Janela de Contexto (Tokens)

Prompt + tokens gerados combinados.

Tamanho do Lote

Sequências paralelas (1 para chat).

Arquitetura Avançada

Camadas

Tamanho Oculto

Cabeças de Atenção

Cabeças KV (GQA/MQA)

Detalhamento de Memória

RAM Total Necessária

0.0 GB

: 16 GB

Pesos do Modelo 0.0 GB

Cache KV 0.0 GB

Overhead do Framework & Acts. 1.0 GB

Reserva do macOS 2.0 GB

Excelente — roda confortavelmente com folga. Ideal para chat e contexto pesado.

Taxa (Est.)

~0 t/s

Tempo até Primeiro Token

<0.5 s

Consumo

0 W

Custo Est. / Hr

$0.00

CO₂ / Hr

0 gCO₂e

Início Rápido

Copie e cole no terminal para começar:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

Perguntas Frequentes

Como a taxa de tokens é calculada?

No Apple Silicon, a velocidade de inferência é limitada pela largura de banda da memória. Dividimos a largura de banda do seu chip pelo tamanho do modelo carregado, aplicando um fator de eficiência do framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

Por que a versão do macOS importa?

O macOS reserva memória para o sistema. Sequoia e Tahoe reservam mais que Sonoma devido a recursos de IA no dispositivo. Esta calculadora leva em conta a diferença.

Por que frameworks usam quantidades diferentes de RAM?

vLLM pré-aloca grandes blocos de cache KV para alta concorrência. Ollama tem overhead do runtime Go (~600 MB). MLX e SGLang são backends mais leves em C++/Python (~200 MB base).

O que a quantização faz?

Quantização reduz a precisão dos pesos do modelo (ex: FP16 → INT4), diminuindo o uso de memória em 2–4×. A contrapartida é uma leve perda de qualidade, geralmente aceitável para chat e código.

Como são calculados energia e emissões?

A potência é derivada do TDP do seu chip sob carga. Custo usa a tarifa elétrica média global ($0.15/kWh). Emissões usam a intensidade de carbono média global (385 g CO₂e/kWh).

Posso rodar modelos maiores que minha RAM?

Tecnicamente sim — o macOS usará memória swap no SSD. Mas a taxa cai para ~10% do normal, tornando o chat em tempo real inutilizável.

1. Seu Hardware

2. Escolha um Modelo

Recomendados para Seu Mac

Detalhamento de Memória

Início Rápido

Perguntas Frequentes