Outil Gratuit
Mon Mac Peut-il le Faire Tourner ?
Le calculateur de mémoire LLM définitif pour Mac. Estimez l'empreinte mémoire exacte, la vitesse de génération de tokens et la compatibilité pour votre configuration Apple Silicon.
1. Votre Matériel
2. Choisir un Modèle
Ex : 8 pour un modèle 8B.
Moins de précision = moins de mémoire, légère perte de qualité.
Prompt + tokens générés combinés.
Séquences parallèles (1 pour le chat).
Architecture Avancée
Recommandés pour Votre Mac
Détail de la Mémoire
RAM Totale Requise
0.0 GB
Débit (Est.)
~0 t/s
Temps au Premier Token
<0.5 s
Consommation
0 W
Coût Est. / Hr
$0.00
CO₂ / Hr
0 gCO₂e
Démarrage Rapide
Copiez et collez dans votre terminal pour commencer :
Questions Fréquentes
Comment le débit de tokens est-il calculé ?
Sur Apple Silicon, la vitesse d'inférence est limitée par la bande passante mémoire. Nous divisons la bande passante de votre puce par la taille du modèle chargé, puis appliquons un facteur d'efficacité du framework (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
Pourquoi la version de macOS est-elle importante ?
macOS réserve de la mémoire pour le système. Sequoia et Tahoe réservent plus que Sonoma en raison des fonctionnalités IA embarquées. Ce calculateur prend en compte cette différence.
Pourquoi les frameworks utilisent-ils des quantités de RAM différentes ?
vLLM préalloue de grands blocs de cache KV pour la haute concurrence. Ollama a une surcharge du runtime Go (~600 Mo). MLX et SGLang sont des backends plus légers en C++/Python (~200 Mo de base).
Que fait la quantification ?
La quantification réduit la précision des poids du modèle (ex : FP16 → INT4), réduisant l'utilisation mémoire de 2–4×. En contrepartie, une légère perte de qualité, généralement acceptable pour le chat et le code.
Comment sont calculés les coûts énergétiques et les émissions ?
La puissance est dérivée du TDP de votre puce sous charge. Le coût utilise le tarif électrique moyen mondial (0,15 $/kWh). Les émissions utilisent l'intensité carbone moyenne mondiale (385 g CO₂e/kWh).
Puis-je exécuter des modèles plus grands que ma RAM ?
Techniquement oui — macOS utilisera la mémoire swap sur votre SSD. Mais le débit tombe à ~10% de la normale, rendant le chat en temps réel inutilisable.