Kostenloses Tool

Kann Mein Mac Das?

Der definitive LLM-Speicherrechner für Macs. Berechnen Sie den genauen Speicherbedarf, die Token-Generierungsgeschwindigkeit und die Kompatibilität für Ihre Apple Silicon-Konfiguration.

1. Ihre Hardware

Mac-Prozessor

Unified Memory (RAM)

macOS-Version

Inferenz-Framework

2. Modell Wählen

Modelle Suchen

Parameter (Milliarden)

Z.B. 8 für ein 8B-Modell.

Quantisierung / Präzision

Weniger Präzision = weniger Speicher, leichter Qualitätsverlust.

Kontextfenster (Tokens)

Prompt + max. generierte Tokens kombiniert.

Batch-Größe

Parallele Sequenzen (1 für Chat).

Erweiterte Architektur

Schichten

Hidden Size

Attention Heads

KV Heads (GQA/MQA)

Speicheraufschlüsselung

Gesamter RAM-Bedarf

0.0 GB

: 16 GB

Modellgewichte 0.0 GB

KV-Cache 0.0 GB

Framework-Overhead & Acts. 1.0 GB

macOS-Reservierung 2.0 GB

Ausgezeichnet — läuft komfortabel mit Reserve. Ideal für Chat und umfangreichen Kontext.

Durchsatz (Sch.)

~0 t/s

Zeit bis zum Ersten Token

<0.5 s

Leistungsaufnahme

0 W

Kosten / Std.

$0.00

CO₂ / Std.

0 gCO₂e

Schnellstart

In Ihr Terminal kopieren und einfügen:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

Häufig Gestellte Fragen

Wie wird der Token-Durchsatz berechnet?

Auf Apple Silicon wird die Inferenzgeschwindigkeit durch die Speicherbandbreite begrenzt. Wir teilen die Bandbreite Ihres Chips durch die geladene Modellgröße und wenden einen Framework-spezifischen Effizienzfaktor an (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

Warum ist die macOS-Version wichtig?

macOS reserviert Speicher für das System. Sequoia und Tahoe reservieren mehr als Sonoma aufgrund von On-Device-KI-Funktionen. Dieser Rechner berücksichtigt den Unterschied.

Warum nutzen Frameworks unterschiedlich viel RAM?

vLLM alloziert große KV-Cache-Blöcke für hohe Parallelität. Ollama hat Go-Runtime-Overhead (~600 MB). MLX und SGLang sind schlankere C++/Python-Backends (~200 MB Basis).

Was bewirkt Quantisierung?

Quantisierung reduziert die Präzision der Modellgewichte (z.B. FP16 → INT4), was den Speicherbedarf um 2–4× senkt. Der Kompromiss ist ein leichter Qualitätsverlust.

Wie werden Strom- und Emissionskosten berechnet?

Die Leistung wird aus dem TDP Ihres Chips unter Last abgeleitet. Kosten verwenden den globalen Durchschnitts-Strompreis (0,15 $/kWh). Emissionen verwenden die globale Durchschnitts-Kohlenstoffintensität (385 g CO₂e/kWh).

Kann ich Modelle ausführen, die größer als mein RAM sind?

Technisch ja — macOS nutzt Swap-Speicher auf Ihrer SSD. Der Durchsatz sinkt jedoch auf ~10% des Normalen, was Echtzeit-Chat unbrauchbar macht.

1. Ihre Hardware

2. Modell Wählen

Empfohlen für Ihren Mac

Speicheraufschlüsselung

Schnellstart

Häufig Gestellte Fragen