NVIDIA Nemotron 3 Ultra 发布：一个专为长跑 Agent 打造的 550B 开源模型

昨天 NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 参数的 MoE（Mixture of Experts）模型，激活参数 55B，专门为长时间运行的 Agent 工作流优化。它在 Ollama Cloud 上已经可以直接用了。

这可能是近期对”用 AI Agent 干活的人”最有实际意义的模型发布。说几个我觉得值得关注的点。

专为 Agent 长跑设计

大多数模型评测看的是单轮对话质量，但真正用 Agent 干活（比如让 Hermes Agent 自动研究一个选题、写代码、调试、部署）是另一回事。Agent 会连续调用几十上百次工具，token 消耗飞速增长，模型容易”跑偏”。

Nemotron 3 Ultra 的训练数据包含了大量长程 Agent 任务——规划、工具调用、读回观察结果、委托子 Agent、验证输出、错误恢复。它不是为单轮聊天优化的，而是为”Agent 跑完一整条任务链”优化的。

几个关键数字：

100 万 token 上下文：可以把整个代码库 + 长工具调用历史塞进去
Agent Productivity (PinchBench) 91%，与 Kimi K2.6 并列第一
Instruction Following (IFBench) 82%，领跑开源模型
Long Context Ruler @1M 95%，GLM 5.1 和 Kimi K2.6 根本没法跑 1M 上下文

吞吐量是同类模型的 5 倍

NVIDIA 用了一种叫 NVFP4 的 4-bit 浮点量化格式——同一个 checkpoint 能在 Hopper、Blackwell、Ampere 三代 GPU 上跑。在 Blackwell 上比 BF16 的吞吐量高 5 倍。

这意味着 Agent 任务完成得更快、更便宜。NVIDIA 的数据显示完成 SWE-bench Verified 的成本比同类模型低 30%。

架构上有几个有意思的创新

Hybrid Mamba-Transformer：长上下文用 Mamba 层提效，需要精确召回时用 Transformer 层
LatentMoE：更高效的 expert routing，推理/编码/工具调用/领域逻辑在不同 expert 间切换
Multi-token Prediction：一次前向预测多个 token，多轮对话场景下生成速度更快
Multi-Teacher On-Policy Distillation (MOPD)：用 10+ 个领域专用教师模型同时打分训练，且是异步流水线、可迭代的

跟你有啥关系？

最直接的关系：Hermes Agent 官方支持 Nemotron 3 Ultra。NVIDIA 官方博客里明确写了 Hermes Agent 是 Nemotron 的首选 agent harness 之一，甚至给了教程演示如何用 Hermes + Nemotron 3 Ultra 做自动研究。

如果你用 Ollama，一行命令就能试：

ollama launch hermes --model nemotron-3-ultra:cloud

也可以通过 OpenRouter API 接入（nvidia/nemotron-3-ultra-550b-a55b），Perplexity Pro 用户也能直接选这个模型。

其他配套发布

同批还发了两个配套模型：

Nemotron 3.5 Content Safety (4B)：覆盖 23 个安全类别、12 种语言的内容安全 guardrail 模型
Nemotron 3.5 ASR (0.6B)：多语言流式语音识别，40+ 语言，延迟 <100ms，就是给 GitHub Copilot CLI 语音输入提供动力的那个架构

许可

模型权重、数据、训练配方全部开源，采用 Linux Foundation 的 OpenMDW-1.1 许可。

一句话总结

如果你平时用 AI Agent 干活（不管是用 Hermes、OpenClaw 还是 Claude Code），Nemotron 3 Ultra 是目前开源模型里最值得关注的”Agent 专用引擎”。不是最强编码模型（Coding 上 Kimi K2.6 更强），但在 Agent 编排和指令遵循上是顶级水平，而且跑得快、烧钱少。

模型权重在 Hugging Face 上可以直接下载：nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4。