Ollama MLX 引擎偷偷升级了:Apple Silicon 跑模型更快、更准,还多了个 Agent「快照」黑科技

三件事一起发生了

6 月 11 号,Ollama 给自家 MLX 引擎做了一次不动声色的重大升级。没有大版本号,没有发布会,就是一篇博客文章。但如果你是 Mac 用户,这次更新比你想象的更有料。

简单说,这次更新做了三件事:

  1. 质量更好了 — 引入了 NVFP4 量化格式
  2. 速度更快了 — Metal kernel 融合 + GPU 采样重写,提速约 20%
  3. Agent 更聪明了 — 全新的快照系统,让 AI Agent 不会反复「重读」同样的上下文

NVFP4:4-bit 量化的「质量减半」方案

用 Mac 跑本地模型的人都知道,量化是绕不开的话题。模型太大,不量化跑不动;但量化之后质量往下掉,尤其是 4-bit。

Ollama 这次支持了 NVIDIA 的 NVFP4 格式。它和常见的 q4_K_M 有什么区别?NVFP4 更精细地追踪模型权重的局部动态范围,量化损失更小。Ollama 用 Gemma 4 12B 做了 perplexity 对比:

  • 以未量化 bf16 为基准
  • NVFP4 的质量损失大约是 q4_K_M 的一半

NVFP4 vs q4_K_M vs bf16 perplexity对比
图:NVFP4 vs q4_K_M vs bf16 的 perplexity 对比 — NVFP4 把 4-bit 质量损失减半(来源:Ollama Blog)

也就是说,同样是 4-bit 量化,NVFP4 跑出来的结果更接近原版模型。还有一个附带好处:NVFP4 是 NVIDIA 为数据中心优化的格式,数据中心跑的优化模型现在可以直接拉到 Mac 上跑,不用重新转换。

速度:Metal kernel 融合 + GPU 采样重写

性能层面,MLX 引擎这次把几个操作合并成了单个 Metal kernel——靠的是 MLX 框架的 JIT(即时编译)能力。另外 GPU 端的采样逻辑也重写了。

结果?在 8300 token 的输入提示下,NVFP4 的输出速度比 q4_K_M 快约 20%。20% 在数字上不算夸张,但在 Agent 场景体感很明显——Agent 每调一次工具就是一次新请求,每次都重新发整个对话历史,上下文越长差距越大。

Agent 快照:最被低估的功能

用过 AI Coding Agent 的人都有体会:Agent 跑着跑着越来越慢。为什么?因为每次工具调用都是一次新请求,每次都把整个对话历史——system prompt、工具定义、读过的文件——重新塞给模型处理一遍。一个任务下来,同样的上下文可能被处理几十次。

Prefix caching 可以缓解,但有个前提:每次请求必须是上一次的精确续接。现实中的 Agent 对话根本做不到:

  • 子 Agent 切换:Agent A 把任务交给子 Agent B,B 处理完回来,A 还得继续。传统缓存在这中间断掉了。
  • Thinking 模型:推理 token 生成完就被丢弃,下一轮的上下文和上一轮的「思考过程」对不上,缓存失效。
  • 分支和重试:你说「换个方案」,或者 Agent 自己重试——对话分叉了,缓存也废了。

Ollama 的快照系统就是解决这些问题的。它在关键节点保存模型状态:对话分叉的地方、长 prompt 的间隔位置、每次回复生成之前。当子 Agent 回来、thinking 结束、或者你换了一个追问方向时,引擎直接从最近的快照恢复,不需要从头处理整个上下文。

Ollama Agent Snapshot快照系统工作流程
图:Ollama Agent 快照系统 — 在分叉点、长 prompt 间隔、回复前保存状态,需要时恢复(来源:Ollama Blog)

有个技术细节值得提一嘴:很多新模型的注意力机制是滑动窗口的,还有循环层携带不可回退的状态。一旦模型「走过」了某个位置,那个位置的状态就丢了,除非当时存了快照。Ollama 的做法是选择性和增量式保存——只保存可能回到的位置,并且增量存储,把内存留给模型本身。

怎么用

升级到最新版 Ollama,然后:

ollama run gemma4:12b-mlx

如果你用 AI Coding Agent(比如 Claude Code、Codex),用 ollama launch

ollama launch pi --model gemma4:12b-mlx

注意:MLX 引擎是 Apple Silicon only。Intel Mac 用户享受不到。

值不值得升?

如果你在 Mac 上跑 Ollama,。三个理由:

  1. NVFP4 对输出质量有明显提升,尤其是 4-bit 量化的模型
  2. 20% 的速度提升在 Agent 场景下体感明显
  3. 快照系统在长对话和多 Agent 场景下是质的区别,不是量的区别

不过 MLX 目前还是 Ollama 的一个引擎选项,不是所有模型都有 -mlx 后缀。如果你用的模型暂时没有 MLX 版本,这次升级对你影响不大。但方向是明确的:Ollama 在把 MLX 从「预览」推向「主力」。Apple Silicon 用户的好日子还在后头。


来源:Ollama Blog — Ollama’s highest performance on Apple Silicon yet with MLX,2026-06-11

发表评论