昨天 Ollama 发布了 0.30 版本,这次更新对喜欢在本地跑模型的人来说是个不小的变化——Ollama 正式接入了 llama.cpp 的 GGUF 生态。
这次更新到底改了什么
核心变化就三个:
1. GGUF 模型可以直接跑了
以前 Ollama 有自己的一套模型格式,很多 Hugging Face 上发布的 GGUF 模型不能直接用。0.30 打通了这条链路。现在你从 Hugging Face 下载一个 GGUF 文件,写两行 Modelfile 就能跑起来:
FROM ./my-model.Q4_K_M.gguf然后 ollama create -f Modelfile my-model && ollama run my-model 就完事了。
这意味着 LFM(Liquid AI)、Prism 这些新模型家族,以及 Unsloth 上各种微调变体,现在都能在 Ollama 里直接用了。
2. NVIDIA GPU 性能提升最高 20%
官方用 Gemma 4 26B 在 RTX 5090 上测试了 Q4_K_M 量化版本,吞吐量比之前版本高了 20%。这部分优化来自 NVIDIA 和 llama.cpp 团队的贡献。
3. Vulkan 默认开启
这对 AMD 和 Intel 显卡用户是好消息。以前可能需要折腾 ROCm 之类的驱动才能用 GPU 加速,现在 Vulkan 默认开启,更多硬件可以开箱即用。
需要注意的是,这次是增强 Apple Silicon 上的 MLX 引擎,不是替换。Mac 用户依然享受 MLX 的优化,同时多了 GGUF 这条补充路径。
和本地 AI 工具链的配合
这一版对 tool calling 做了很好的保留——如果你的 GGUF 模型支持 function calling,这个能力会原封不动地带进 Ollama。你可以直接用这些模型启动编程助手:
ollama launch claude --model my-model # Claude Code
ollama launch hermes --model my-model # Hermes Agent
ollama launch openclaw --model my-model # OpenClaw用 ollama show my-model 就能检查模型是否支持 tool calling。
我觉得这件事值得关注的原因
不是因为这个版本有什么「革命性」的突破,而是因为它打通了两个之前有点割裂的生态:
- Ollama 的用户体验确实好,下载、管理、运行模型都很省心
- llama.cpp / GGUF 生态有最多的社区模型和硬件优化
以前你经常要在「好用但模型少」和「模型多但折腾」之间做选择。0.30 算是把这两边接上了。对喜欢在本地折腾 AI 的人来说,可选模型一下子多了不少,而且不需要离开 Ollama 的便利性。
另外 Vulkan 默认开启这个事,对用 Intel Arc 显卡或者 AMD 消费卡的人来说,门槛降了一大截。
几点提醒
- 如果你已经有 Ollama 在跑,直接升级就行,现有的模型不会受影响
- GGUF 模型的 tool calling 需要模型本身支持,不是所有 GGUF 都带
- Mac 用户的 MLX 引擎仍然在,这次是补充不是替代
- Vulkan 虽然覆盖广,但极限性能通常还是不如 CUDA/ROCm 等专用后端
来源:Ollama Blog – Improved performance and model support with GGUF,2026-06-05