Kostenloses Tool
Kann Mein Mac Das?
Der definitive LLM-Speicherrechner für Macs. Berechnen Sie den genauen Speicherbedarf, die Token-Generierungsgeschwindigkeit und die Kompatibilität für Ihre Apple Silicon-Konfiguration.
1. Ihre Hardware
2. Modell Wählen
Z.B. 8 für ein 8B-Modell.
Weniger Präzision = weniger Speicher, leichter Qualitätsverlust.
Prompt + max. generierte Tokens kombiniert.
Parallele Sequenzen (1 für Chat).
Erweiterte Architektur
Empfohlen für Ihren Mac
Speicheraufschlüsselung
Gesamter RAM-Bedarf
0.0 GB
Durchsatz (Sch.)
~0 t/s
Zeit bis zum Ersten Token
<0.5 s
Leistungsaufnahme
0 W
Kosten / Std.
$0.00
CO₂ / Std.
0 gCO₂e
Schnellstart
In Ihr Terminal kopieren und einfügen:
Häufig Gestellte Fragen
Wie wird der Token-Durchsatz berechnet?
Auf Apple Silicon wird die Inferenzgeschwindigkeit durch die Speicherbandbreite begrenzt. Wir teilen die Bandbreite Ihres Chips durch die geladene Modellgröße und wenden einen Framework-spezifischen Effizienzfaktor an (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
Warum ist die macOS-Version wichtig?
macOS reserviert Speicher für das System. Sequoia und Tahoe reservieren mehr als Sonoma aufgrund von On-Device-KI-Funktionen. Dieser Rechner berücksichtigt den Unterschied.
Warum nutzen Frameworks unterschiedlich viel RAM?
vLLM alloziert große KV-Cache-Blöcke für hohe Parallelität. Ollama hat Go-Runtime-Overhead (~600 MB). MLX und SGLang sind schlankere C++/Python-Backends (~200 MB Basis).
Was bewirkt Quantisierung?
Quantisierung reduziert die Präzision der Modellgewichte (z.B. FP16 → INT4), was den Speicherbedarf um 2–4× senkt. Der Kompromiss ist ein leichter Qualitätsverlust.
Wie werden Strom- und Emissionskosten berechnet?
Die Leistung wird aus dem TDP Ihres Chips unter Last abgeleitet. Kosten verwenden den globalen Durchschnitts-Strompreis (0,15 $/kWh). Emissionen verwenden die globale Durchschnitts-Kohlenstoffintensität (385 g CO₂e/kWh).
Kann ich Modelle ausführen, die größer als mein RAM sind?
Technisch ja — macOS nutzt Swap-Speicher auf Ihrer SSD. Der Durchsatz sinkt jedoch auf ~10% des Normalen, was Echtzeit-Chat unbrauchbar macht.