無料ツール

Macで動く？

Mac向けLLMメモリ計算の決定版。Apple Silicon構成に合わせた正確なメモリ使用量、トークン生成速度、互換性を計算します。

1. ハードウェア

Macプロセッサ

ユニファイドメモリ（RAM）

macOSバージョン

推論フレームワーク

2. モデル選択

モデル検索

パラメータ数（10億単位）

例：8Bモデルなら8。

量子化 / 精度

低精度 = 少ないメモリ、わずかな品質低下。

コンテキストウィンドウ（トークン）

プロンプト＋最大生成トークンの合計。

バッチサイズ

並列シーケンス数（チャットは1）。

高度なアーキテクチャ

レイヤー数

隠れ層サイズ

アテンションヘッド

KVヘッド（GQA/MQA）

お使いのMacにおすすめ

メモリ内訳

必要RAM合計

0.0 GB

: 16 GB

モデル重み 0.0 GB

KVキャッシュ 0.0 GB

フレームワークオーバーヘッド & Acts. 1.0 GB

macOS予約 2.0 GB

最適 — 余裕を持って快適に動作。チャットや大きなコンテキストに最適。

スループット（推定）

~0 t/s

最初のトークンまでの時間

<0.5 s

消費電力

0 W

推定コスト / 時

$0.00

CO₂ / 時

0 gCO₂e

クイックスタート

ターミナルにコピー＆ペーストして開始：

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

よくある質問

トークンスループットはどのように計算されますか？

Apple Siliconでは推論速度はメモリ帯域幅によって制限されます。チップの帯域幅をロードされたモデルサイズで割り、フレームワーク固有の効率係数を適用します（MLX ≈ 85%、Ollama ≈ 65%、vLLM ≈ 70%、SGLang ≈ 88%）。

macOSバージョンが重要な理由は？

macOSはシステム用にメモリを予約します。SequoiaとTahoeはデバイス上のAI機能のためSonomaより多く予約します。この計算ツールはその差を考慮します。

フレームワークごとにRAM使用量が異なるのはなぜ？

vLLMは高い並列性のために大きなKVキャッシュブロックを事前確保します。OllamaはGoランタイムのオーバーヘッド（約600MB）があります。MLXとSGLangはよりコンパクトなC++/Pythonバックエンド（約200MBベース）です。

量子化とは何ですか？

量子化はモデル重みの精度を下げ（例：FP16→INT4）、メモリ使用量を2〜4倍削減します。わずかな品質低下がありますが、チャットやコードタスクには通常許容範囲です。

電力とコストの見積もりはどのように計算されますか？

電力はチップの負荷時TDPから算出します。コストは世界平均電気料金（$0.15/kWh）、排出量は世界平均グリッド炭素強度（385 g CO₂e/kWh）を使用します。

RAMより大きなモデルを実行できますか？

技術的には可能です — macOSはSSD上のスワップメモリを使用します。ただしスループットは通常の約10%に低下し、リアルタイムチャットは実用的でなくなります。