Outil Gratuit

Mon Mac Peut-il le Faire Tourner ?

Le calculateur de mémoire LLM définitif pour Mac. Estimez l'empreinte mémoire exacte, la vitesse de génération de tokens et la compatibilité pour votre configuration Apple Silicon.

1. Votre Matériel

Processeur Mac

Mémoire Unifiée (RAM)

Version de macOS

Framework d'Inférence

2. Choisir un Modèle

Rechercher des Modèles

Paramètres (Milliards)

Ex : 8 pour un modèle 8B.

Quantification / Précision

Moins de précision = moins de mémoire, légère perte de qualité.

Fenêtre de Contexte (Tokens)

Prompt + tokens générés combinés.

Taille du Lot

Séquences parallèles (1 pour le chat).

Architecture Avancée

Couches

Taille Cachée

Têtes d'Attention

Têtes KV (GQA/MQA)

Recommandés pour Votre Mac

Détail de la Mémoire

RAM Totale Requise

0.0 GB

: 16 GB

Poids du Modèle 0.0 GB

Cache KV 0.0 GB

Surcharge du Framework & Acts. 1.0 GB

Réservation macOS 2.0 GB

Excellent — fonctionne confortablement avec de la marge. Idéal pour le chat et les contextes lourds.

Débit (Est.)

~0 t/s

Temps au Premier Token

<0.5 s

Consommation

0 W

Coût Est. / Hr

$0.00

CO₂ / Hr

0 gCO₂e

Démarrage Rapide

Copiez et collez dans votre terminal pour commencer :

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

Questions Fréquentes

Comment le débit de tokens est-il calculé ?

Sur Apple Silicon, la vitesse d'inférence est limitée par la bande passante mémoire. Nous divisons la bande passante de votre puce par la taille du modèle chargé, puis appliquons un facteur d'efficacité du framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

Pourquoi la version de macOS est-elle importante ?

macOS réserve de la mémoire pour le système. Sequoia et Tahoe réservent plus que Sonoma en raison des fonctionnalités IA embarquées. Ce calculateur prend en compte cette différence.

Pourquoi les frameworks utilisent-ils des quantités de RAM différentes ?

vLLM préalloue de grands blocs de cache KV pour la haute concurrence. Ollama a une surcharge du runtime Go (~600 Mo). MLX et SGLang sont des backends plus légers en C++/Python (~200 Mo de base).

Que fait la quantification ?

La quantification réduit la précision des poids du modèle (ex : FP16 → INT4), réduisant l'utilisation mémoire de 2–4×. En contrepartie, une légère perte de qualité, généralement acceptable pour le chat et le code.

Comment sont calculés les coûts énergétiques et les émissions ?

La puissance est dérivée du TDP de votre puce sous charge. Le coût utilise le tarif électrique moyen mondial (0,15 $/kWh). Les émissions utilisent l'intensité carbone moyenne mondiale (385 g CO₂e/kWh).

Puis-je exécuter des modèles plus grands que ma RAM ?

Techniquement oui — macOS utilisera la mémoire swap sur votre SSD. Mais le débit tombe à ~10% de la normale, rendant le chat en temps réel inutilisable.