Ollama MLX 引擎偷偷升级了：Apple Silicon 跑模型更快、更准，还多了个 Agent「快照」黑科技

三件事一起发生了

6 月 11 号，Ollama 给自家 MLX 引擎做了一次不动声色的重大升级。没有大版本号，没有发布会，就是一篇博客文章。但如果你是 Mac 用户，这次更新比你想象的更有料。

简单说，这次更新做了三件事：

用 Mac 跑本地模型的人都知道，量化是绕不开的话题。模型太大，不量化跑不动；但量化之后质量往下掉，尤其是 4-bit。

Ollama 这次支持了 NVIDIA 的 NVFP4 格式。它和常见的 q4_K_M 有什么区别？NVFP4 更精细地追踪模型权重的局部动态范围，量化损失更小。Ollama 用 Gemma 4 12B 做了 perplexity 对比：

图：NVFP4 vs q4_K_M vs bf16 的 perplexity 对比 — NVFP4 把 4-bit 质量损失减半（来源：Ollama Blog）

也就是说，同样是 4-bit 量化，NVFP4 跑出来的结果更接近原版模型。还有一个附带好处：NVFP4 是 NVIDIA 为数据中心优化的格式，数据中心跑的优化模型现在可以直接拉到 Mac 上跑，不用重新转换。

性能层面，MLX 引擎这次把几个操作合并成了单个 Metal kernel——靠的是 MLX 框架的 JIT（即时编译）能力。另外 GPU 端的采样逻辑也重写了。

结果？在 8300 token 的输入提示下，NVFP4 的输出速度比 q4_K_M 快约 20%。20% 在数字上不算夸张，但在 Agent 场景体感很明显——Agent 每调一次工具就是一次新请求，每次都重新发整个对话历史，上下文越长差距越大。

用过 AI Coding Agent 的人都有体会：Agent 跑着跑着越来越慢。为什么？因为每次工具调用都是一次新请求，每次都把整个对话历史——system prompt、工具定义、读过的文件——重新塞给模型处理一遍。一个任务下来，同样的上下文可能被处理几十次。

Prefix caching 可以缓解，但有个前提：每次请求必须是上一次的精确续接。现实中的 Agent 对话根本做不到：

Ollama 的快照系统就是解决这些问题的。它在关键节点保存模型状态：对话分叉的地方、长 prompt 的间隔位置、每次回复生成之前。当子 Agent 回来、thinking 结束、或者你换了一个追问方向时，引擎直接从最近的快照恢复，不需要从头处理整个上下文。

图：Ollama Agent 快照系统 — 在分叉点、长 prompt 间隔、回复前保存状态，需要时恢复（来源：Ollama Blog）

有个技术细节值得提一嘴：很多新模型的注意力机制是滑动窗口的，还有循环层携带不可回退的状态。一旦模型「走过」了某个位置，那个位置的状态就丢了，除非当时存了快照。Ollama 的做法是选择性和增量式保存——只保存可能回到的位置，并且增量存储，把内存留给模型本身。

升级到最新版 Ollama，然后：

ollama run gemma4:12b-mlx

如果你用 AI Coding Agent（比如 Claude Code、Codex），用 ollama launch：

ollama launch pi --model gemma4:12b-mlx

注意：MLX 引擎是 Apple Silicon only。Intel Mac 用户享受不到。

如果你在 Mac 上跑 Ollama，升。三个理由：

不过 MLX 目前还是 Ollama 的一个引擎选项，不是所有模型都有 -mlx 后缀。如果你用的模型暂时没有 MLX 版本，这次升级对你影响不大。但方向是明确的：Ollama 在把 MLX 从「预览」推向「主力」。Apple Silicon 用户的好日子还在后头。