免费工具

我的Mac能跑吗？

Mac上最权威的LLM内存计算器。为你的Apple Silicon配置精确估算内存占用、Token生成速度和兼容性。

1. 你的硬件

Mac处理器

统一内存（RAM）

macOS版本

推理框架

2. 选择模型

搜索模型

参数量（十亿）

例如：8B模型输入8。

量化 / 精度

精度越低 = 内存越少，质量略有下降。

上下文窗口（Token数）

提示词 + 最大生成Token总和。

批次大小

并行序列数（对话用1）。

高级架构设置

层数

隐藏层大小

注意力头

KV头（GQA/MQA）

内存详情

所需总RAM

0.0 GB

: 16 GB

模型权重 0.0 GB

KV缓存 0.0 GB

框架开销 & Acts. 1.0 GB

macOS预留 2.0 GB

非常适合 — 内存充裕，运行流畅。适合对话和大上下文。

吞吐量（估算）

~0 t/s

首Token延迟

<0.5 s

功耗

0 W

估算成本 / 时

$0.00

CO₂ / 时

0 gCO₂e

快速开始

复制粘贴到终端即可开始：

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

常见问题

Token吞吐量是如何计算的？

在Apple Silicon上，推理速度受内存带宽限制。我们用芯片带宽除以加载的模型大小，然后应用框架效率系数（MLX ≈ 85%、Ollama ≈ 65%、vLLM ≈ 70%、SGLang ≈ 88%）。

为什么macOS版本很重要？

macOS为系统预留内存。Sequoia和Tahoe因设备端AI功能比Sonoma预留更多。本计算器会考虑这一差异。

为什么不同框架使用不同的RAM量？

vLLM为高并发预分配大型KV缓存块。Ollama有Go运行时开销（约600MB）。MLX和SGLang是更精简的C++/Python后端（约200MB基础）。

什么是量化？

量化降低模型权重精度（如FP16→INT4），将内存使用减少2-4倍。代价是轻微质量下降，对对话和编程任务通常可以接受。

功耗和成本估算如何计算？

功耗基于芯片负载下的TDP。成本使用全球平均电价（$0.15/kWh）。排放使用全球平均电网碳强度（385 g CO₂e/kWh）。

能运行超过RAM大小的模型吗？

技术上可以 — macOS会使用SSD上的交换内存。但吞吐量降至正常的约10%，实时对话将无法使用。

1. 你的硬件

2. 选择模型

推荐给你的Mac

内存详情

快速开始

常见问题