Microsoft 一口气发了 7 个自研 AI 模型:MAI 全家桶到底有多能打?

六月初,微软 AI(就是 Mustafa Suleyman 带的那支团队)一口气端出了七款自研模型,取名 MAI 系列。这事表面上是例行模型发布,但仔细看会发现几个有意思的信号——微软终于拿出了不和 OpenAI「套娃」的自家底牌。

先说结论:这波模型不算革命性,但诚意和技术含金量都在线,而且对开发者非常友好。

MAI 模型全家桶一览
MAI 模型全家桶一览:7 款自研模型覆盖推理、编码、图像、语音等多模态(来源:Microsoft AI Blog)

MAI 全家桶:一张表看明白

微软这次把 AI 能力铺得很散,从推理到语音到图像几乎全覆盖:

模型 参数规模 一句话定位
MAI-Thinking-1 1T MoE / 35B 激活 推理旗舰,对标 Sonnet 4.6
MAI-Code-1-Flash 137B MoE / 5B 激活 编码专用,对标 Haiku 4.5
MAI-Image-2.5 未公开 文生图 + 图编辑,Arena 领先
MAI-Transcribe-1.5 未公开 语音转写,43 语言,SOTA
MAI-Voice-2 未公开 语音合成,15 语言,声音克隆

七个模型里最值得关注的,当然是 MAI-Thinking-1MAI-Code-1-Flash

MAI-Thinking-1:微软的推理王牌

先说参数:1 万亿总参数、35B 激活的 MoE 架构,256K 上下文窗口。这个规格放在今天不算「巨型模型」,但成绩挺吓人:

  • AIME 2025(数学竞赛):97%——接近满分
  • AIME 2026(更难的新版):94.5%——泛化能力很强
  • 人类盲评 vs Sonnet 4.6:在 1,276 道题的双盲测试中,评审更偏好 MAI-Thinking-1

这组数据的看点不在于「超过了谁」,而在于微软是纯自研做出来的。Mustafa Suleyman 在博客里反复强调一个姿态:不蒸馏、不用第三方数据、不抄作业。全栈自己搭——从架构设计到训练管线到 RL 框架,甚至配合自家的 Maia 200 芯片做协同设计(目前已经拿到 1.4x 的效率提升)。

从从业者角度看,这意味着推理模型的训练壁垒没有想象那么高。只要能组织好训练数据和 RL 流程,35B 量级的活跃参数就能打出很漂亮的成绩。这对开源社区也是好信号。

MAI 模型 Benchmark 对比
MAI 模型核心 Benchmark 对比:Code-1-Flash 在 SWE-Bench Pro 51.2% vs Haiku 4.5 的 35.2%;Thinking-1 AIME 2025 达到 97%(来源:Microsoft AI Blog)

MAI-Code-1-Flash:码农的侧翼

如果 Thinking-1 是旗舰,那 Code-1-Flash 就是走量的大杀器。

137B 总参数、5B 活跃参数,本身就是为 GitHub Copilot 量身打造的。成绩也很直接:

  • SWE-Bench Pro:51.2%(Haiku 4.5 是 35.2%,高出 16 个百分点)
  • SWE-Bench Verified:同等任务少用 60% 的 token
  • 指令遵循(IF Bench):比 Haiku 4.5 高出 28.9 个百分点

微软特意强调它的「自适应思考」特性——简单问题迅速回答,复杂问题会多花推理预算。在实际编码场景里,这个特性比纯 benchmark 分数更有感。

Frontier Tuning:比模型本身更有趣的概念

这次发布里最让我感兴趣的不是某个模型,而是 Frontier Tuning 这个概念。

微软的表述是:用 Reinforcement Learning Environments(RLE)让模型在企业实际工作流数据上做强化学习微调。意思是,你的模型不是从参数服务器上下载一个通用版本,而是让它在你组织内部的真实操作 traces 里学习怎么做事情。

最直接的例子:MAI 针对 Excel 场景做 Frontier Tuning 后,匹配 GPT 5.4 的性能,但成本低 10 倍

这个思路对自建 Agent 工作流的人来说很有启发——最有价值的训练数据不是公共的 benchmark,而是你自己的操作轨迹

Frontier Tuning 工作流
Frontier Tuning 工作流:基础模型 → 企业操作轨迹 → RLE 强化学习 → 定制模型(来源:Microsoft AI Blog)

模型已开放给第三方平台:OpenRouter、Fireworks、Baseten 上都可以调用,还首次允许开发者自行微调权重。

和 Mayo Clinic 的合作

微软还宣布了和 Mayo Clinic(全球顶级医疗机构)共建医疗 AI 模型。比较特别的是,模型所有权归 Mayo Clinic,不是微软。这个模式在 AI 行业不常见——表明微软在医疗领域的姿态是「做工具,不做数据主人」。

值得留意的一个细节

这次 MAI 模型发布没有强调「开源」,模型权重也没有公开。开源社区能用的依然是微软之前发布的 Phi 系列(小参数模型)。MAI 系列走的是 API + 企业定制路线,不走社区路线。

但通过 OpenRouter 这类平台,个人开发者也能低成本试用到 Thinking-1 和 Code-1-Flash——不需要签企业合同,充个几十块钱就能跑 benchmark。

最后说两句

微软这次最大的进步,不是某个 benchmark 分数的刷新,而是证明了自己可以不靠 OpenAI 做出有竞争力的模型。全栈自研 + 不蒸馏 + 干净数据,这些口号真假难辨,但至少在产品层面,MAI 系列给出了实实在在的 API 和工具。

对于本地 AI 玩家,MAI-Thinking-1 的 35B 活跃参数也值得关注——虽然总参数量是 1T(靠 MoE 稀疏激活),但活跃部分只有 35B,某种意义上验证了「用 MoE 在消费级硬件上跑大模型」这个方向是可行的。

信息来源:Microsoft AI Blog,6月2日/8日更新

发表评论