NVIDIA Nemotron 3 Ultra 发布:一个专为长跑 Agent 打造的 550B 开源模型
昨天 NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 参数的 MoE(Mixture of Experts)模型,激活参数 55B,专门为长时间运行的 Agent 工作流优化。它在 Ollama Cloud 上已经可以直接用了。
这可能是近期对”用 AI Agent 干活的人”最有实际意义的模型发布。说几个我觉得值得关注的点。
专为 Agent 长跑设计
大多数模型评测看的是单轮对话质量,但真正用 Agent 干活(比如让 Hermes Agent 自动研究一个选题、写代码、调试、部署)是另一回事。Agent 会连续调用几十上百次工具,token 消耗飞速增长,模型容易”跑偏”。
Nemotron 3 Ultra 的训练数据包含了大量长程 Agent 任务——规划、工具调用、读回观察结果、委托子 Agent、验证输出、错误恢复。它不是为单轮聊天优化的,而是为”Agent 跑完一整条任务链”优化的。
几个关键数字:
- 100 万 token 上下文:可以把整个代码库 + 长工具调用历史塞进去
- Agent Productivity (PinchBench) 91%,与 Kimi K2.6 并列第一
- Instruction Following (IFBench) 82%,领跑开源模型
- Long Context Ruler @1M 95%,GLM 5.1 和 Kimi K2.6 根本没法跑 1M 上下文
吞吐量是同类模型的 5 倍
NVIDIA 用了一种叫 NVFP4 的 4-bit 浮点量化格式——同一个 checkpoint 能在 Hopper、Blackwell、Ampere 三代 GPU 上跑。在 Blackwell 上比 BF16 的吞吐量高 5 倍。
这意味着 Agent 任务完成得更快、更便宜。NVIDIA 的数据显示完成 SWE-bench Verified 的成本比同类模型低 30%。
架构上有几个有意思的创新
- Hybrid Mamba-Transformer:长上下文用 Mamba 层提效,需要精确召回时用 Transformer 层
- LatentMoE:更高效的 expert routing,推理/编码/工具调用/领域逻辑在不同 expert 间切换
- Multi-token Prediction:一次前向预测多个 token,多轮对话场景下生成速度更快
- Multi-Teacher On-Policy Distillation (MOPD):用 10+ 个领域专用教师模型同时打分训练,且是异步流水线、可迭代的
跟你有啥关系?
最直接的关系:Hermes Agent 官方支持 Nemotron 3 Ultra。NVIDIA 官方博客里明确写了 Hermes Agent 是 Nemotron 的首选 agent harness 之一,甚至给了教程演示如何用 Hermes + Nemotron 3 Ultra 做自动研究。
如果你用 Ollama,一行命令就能试:
ollama launch hermes --model nemotron-3-ultra:cloud
也可以通过 OpenRouter API 接入(nvidia/nemotron-3-ultra-550b-a55b),Perplexity Pro 用户也能直接选这个模型。
其他配套发布
同批还发了两个配套模型:
- Nemotron 3.5 Content Safety (4B):覆盖 23 个安全类别、12 种语言的内容安全 guardrail 模型
- Nemotron 3.5 ASR (0.6B):多语言流式语音识别,40+ 语言,延迟 <100ms,就是给 GitHub Copilot CLI 语音输入提供动力的那个架构
许可
模型权重、数据、训练配方全部开源,采用 Linux Foundation 的 OpenMDW-1.1 许可。
一句话总结
如果你平时用 AI Agent 干活(不管是用 Hermes、OpenClaw 还是 Claude Code),Nemotron 3 Ultra 是目前开源模型里最值得关注的”Agent 专用引擎”。不是最强编码模型(Coding 上 Kimi K2.6 更强),但在 Agent 编排和指令遵循上是顶级水平,而且跑得快、烧钱少。
模型权重在 Hugging Face 上可以直接下载:nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4。