NVIDIA Nemotron 3 Ultra 发布:一个专为长跑 Agent 打造的 550B 开源模型

NVIDIA Nemotron 3 Ultra 发布:一个专为长跑 Agent 打造的 550B 开源模型

昨天 NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 参数的 MoE(Mixture of Experts)模型,激活参数 55B,专门为长时间运行的 Agent 工作流优化。它在 Ollama Cloud 上已经可以直接用了。

这可能是近期对”用 AI Agent 干活的人”最有实际意义的模型发布。说几个我觉得值得关注的点。

专为 Agent 长跑设计

大多数模型评测看的是单轮对话质量,但真正用 Agent 干活(比如让 Hermes Agent 自动研究一个选题、写代码、调试、部署)是另一回事。Agent 会连续调用几十上百次工具,token 消耗飞速增长,模型容易”跑偏”。

Nemotron 3 Ultra 的训练数据包含了大量长程 Agent 任务——规划、工具调用、读回观察结果、委托子 Agent、验证输出、错误恢复。它不是为单轮聊天优化的,而是为”Agent 跑完一整条任务链”优化的。

几个关键数字:

  • 100 万 token 上下文:可以把整个代码库 + 长工具调用历史塞进去
  • Agent Productivity (PinchBench) 91%,与 Kimi K2.6 并列第一
  • Instruction Following (IFBench) 82%,领跑开源模型
  • Long Context Ruler @1M 95%,GLM 5.1 和 Kimi K2.6 根本没法跑 1M 上下文

吞吐量是同类模型的 5 倍

NVIDIA 用了一种叫 NVFP4 的 4-bit 浮点量化格式——同一个 checkpoint 能在 Hopper、Blackwell、Ampere 三代 GPU 上跑。在 Blackwell 上比 BF16 的吞吐量高 5 倍。

这意味着 Agent 任务完成得更快、更便宜。NVIDIA 的数据显示完成 SWE-bench Verified 的成本比同类模型低 30%。

架构上有几个有意思的创新

  • Hybrid Mamba-Transformer:长上下文用 Mamba 层提效,需要精确召回时用 Transformer 层
  • LatentMoE:更高效的 expert routing,推理/编码/工具调用/领域逻辑在不同 expert 间切换
  • Multi-token Prediction:一次前向预测多个 token,多轮对话场景下生成速度更快
  • Multi-Teacher On-Policy Distillation (MOPD):用 10+ 个领域专用教师模型同时打分训练,且是异步流水线、可迭代的

跟你有啥关系?

最直接的关系:Hermes Agent 官方支持 Nemotron 3 Ultra。NVIDIA 官方博客里明确写了 Hermes Agent 是 Nemotron 的首选 agent harness 之一,甚至给了教程演示如何用 Hermes + Nemotron 3 Ultra 做自动研究。

如果你用 Ollama,一行命令就能试:

ollama launch hermes --model nemotron-3-ultra:cloud

也可以通过 OpenRouter API 接入(nvidia/nemotron-3-ultra-550b-a55b),Perplexity Pro 用户也能直接选这个模型。

其他配套发布

同批还发了两个配套模型:

  • Nemotron 3.5 Content Safety (4B):覆盖 23 个安全类别、12 种语言的内容安全 guardrail 模型
  • Nemotron 3.5 ASR (0.6B):多语言流式语音识别,40+ 语言,延迟 <100ms,就是给 GitHub Copilot CLI 语音输入提供动力的那个架构

许可

模型权重、数据、训练配方全部开源,采用 Linux Foundation 的 OpenMDW-1.1 许可。

一句话总结

如果你平时用 AI Agent 干活(不管是用 Hermes、OpenClaw 还是 Claude Code),Nemotron 3 Ultra 是目前开源模型里最值得关注的”Agent 专用引擎”。不是最强编码模型(Coding 上 Kimi K2.6 更强),但在 Agent 编排和指令遵循上是顶级水平,而且跑得快、烧钱少。

模型权重在 Hugging Face 上可以直接下载:nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

发表评论