無料ツール
Macで動く?
Mac向けLLMメモリ計算の決定版。Apple Silicon構成に合わせた正確なメモリ使用量、トークン生成速度、互換性を計算します。
1. ハードウェア
2. モデル選択
例:8Bモデルなら8。
低精度 = 少ないメモリ、わずかな品質低下。
プロンプト+最大生成トークンの合計。
並列シーケンス数(チャットは1)。
高度なアーキテクチャ
お使いのMacにおすすめ
メモリ内訳
必要RAM合計
0.0 GB
スループット(推定)
~0 t/s
最初のトークンまでの時間
<0.5 s
消費電力
0 W
推定コスト / 時
$0.00
CO₂ / 時
0 gCO₂e
クイックスタート
ターミナルにコピー&ペーストして開始:
よくある質問
トークンスループットはどのように計算されますか?
Apple Siliconでは推論速度はメモリ帯域幅によって制限されます。チップの帯域幅をロードされたモデルサイズで割り、フレームワーク固有の効率係数を適用します(MLX ≈ 85%、Ollama ≈ 65%、vLLM ≈ 70%、SGLang ≈ 88%)。
macOSバージョンが重要な理由は?
macOSはシステム用にメモリを予約します。SequoiaとTahoeはデバイス上のAI機能のためSonomaより多く予約します。この計算ツールはその差を考慮します。
フレームワークごとにRAM使用量が異なるのはなぜ?
vLLMは高い並列性のために大きなKVキャッシュブロックを事前確保します。OllamaはGoランタイムのオーバーヘッド(約600MB)があります。MLXとSGLangはよりコンパクトなC++/Pythonバックエンド(約200MBベース)です。
量子化とは何ですか?
量子化はモデル重みの精度を下げ(例:FP16→INT4)、メモリ使用量を2〜4倍削減します。わずかな品質低下がありますが、チャットやコードタスクには通常許容範囲です。
電力とコストの見積もりはどのように計算されますか?
電力はチップの負荷時TDPから算出します。コストは世界平均電気料金($0.15/kWh)、排出量は世界平均グリッド炭素強度(385 g CO₂e/kWh)を使用します。
RAMより大きなモデルを実行できますか?
技術的には可能です — macOSはSSD上のスワップメモリを使用します。ただしスループットは通常の約10%に低下し、リアルタイムチャットは実用的でなくなります。