BTC ETH SOL XRP DOGE S&P 500 NASDAQ DOW EUR/USD USD/JPY GOLD
BTC ETH SOL XRP DOGE S&P 500 NASDAQ DOW EUR/USD USD/JPY GOLD

無料ツール

Macで動く?

Mac向けLLMメモリ計算の決定版。Apple Silicon構成に合わせた正確なメモリ使用量、トークン生成速度、互換性を計算します。

1. ハードウェア

2. モデル選択

例:8Bモデルなら8。

低精度 = 少ないメモリ、わずかな品質低下。

プロンプト+最大生成トークンの合計。

並列シーケンス数(チャットは1)。

高度なアーキテクチャ

お使いのMacにおすすめ

メモリ内訳

必要RAM合計

0.0 GB

: 16 GB
モデル重み 0.0 GB
KVキャッシュ 0.0 GB
フレームワークオーバーヘッド & Acts. 1.0 GB
macOS予約 2.0 GB
最適 — 余裕を持って快適に動作。チャットや大きなコンテキストに最適。

スループット(推定)

~0 t/s

最初のトークンまでの時間

<0.5 s

消費電力

0 W

推定コスト / 時

$0.00

CO₂ / 時

0 gCO₂e

クイックスタート

ターミナルにコピー&ペーストして開始:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

よくある質問

トークンスループットはどのように計算されますか?

Apple Siliconでは推論速度はメモリ帯域幅によって制限されます。チップの帯域幅をロードされたモデルサイズで割り、フレームワーク固有の効率係数を適用します(MLX ≈ 85%、Ollama ≈ 65%、vLLM ≈ 70%、SGLang ≈ 88%)。

macOSバージョンが重要な理由は?

macOSはシステム用にメモリを予約します。SequoiaとTahoeはデバイス上のAI機能のためSonomaより多く予約します。この計算ツールはその差を考慮します。

フレームワークごとにRAM使用量が異なるのはなぜ?

vLLMは高い並列性のために大きなKVキャッシュブロックを事前確保します。OllamaはGoランタイムのオーバーヘッド(約600MB)があります。MLXとSGLangはよりコンパクトなC++/Pythonバックエンド(約200MBベース)です。

量子化とは何ですか?

量子化はモデル重みの精度を下げ(例:FP16→INT4)、メモリ使用量を2〜4倍削減します。わずかな品質低下がありますが、チャットやコードタスクには通常許容範囲です。

電力とコストの見積もりはどのように計算されますか?

電力はチップの負荷時TDPから算出します。コストは世界平均電気料金($0.15/kWh)、排出量は世界平均グリッド炭素強度(385 g CO₂e/kWh)を使用します。

RAMより大きなモデルを実行できますか?

技術的には可能です — macOSはSSD上のスワップメモリを使用します。ただしスループットは通常の約10%に低下し、リアルタイムチャットは実用的でなくなります。