免费工具
我的Mac能跑吗?
Mac上最权威的LLM内存计算器。为你的Apple Silicon配置精确估算内存占用、Token生成速度和兼容性。
1. 你的硬件
2. 选择模型
例如:8B模型输入8。
精度越低 = 内存越少,质量略有下降。
提示词 + 最大生成Token总和。
并行序列数(对话用1)。
高级架构设置
推荐给你的Mac
内存详情
所需总RAM
0.0 GB
: 16 GB
模型权重 0.0 GB
KV缓存 0.0 GB
框架开销 & Acts. 1.0 GB
macOS预留 2.0 GB
吞吐量(估算)
~0 t/s
首Token延迟
<0.5 s
功耗
0 W
估算成本 / 时
$0.00
CO₂ / 时
0 gCO₂e
快速开始
复制粘贴到终端即可开始:
$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B
常见问题
Token吞吐量是如何计算的?
在Apple Silicon上,推理速度受内存带宽限制。我们用芯片带宽除以加载的模型大小,然后应用框架效率系数(MLX ≈ 85%、Ollama ≈ 65%、vLLM ≈ 70%、SGLang ≈ 88%)。
为什么macOS版本很重要?
macOS为系统预留内存。Sequoia和Tahoe因设备端AI功能比Sonoma预留更多。本计算器会考虑这一差异。
为什么不同框架使用不同的RAM量?
vLLM为高并发预分配大型KV缓存块。Ollama有Go运行时开销(约600MB)。MLX和SGLang是更精简的C++/Python后端(约200MB基础)。
什么是量化?
量化降低模型权重精度(如FP16→INT4),将内存使用减少2-4倍。代价是轻微质量下降,对对话和编程任务通常可以接受。
功耗和成本估算如何计算?
功耗基于芯片负载下的TDP。成本使用全球平均电价($0.15/kWh)。排放使用全球平均电网碳强度(385 g CO₂e/kWh)。
能运行超过RAM大小的模型吗?
技术上可以 — macOS会使用SSD上的交换内存。但吞吐量降至正常的约10%,实时对话将无法使用。