六月初,微软 AI(就是 Mustafa Suleyman 带的那支团队)一口气端出了七款自研模型,取名 MAI 系列。这事表面上是例行模型发布,但仔细看会发现几个有意思的信号——微软终于拿出了不和 OpenAI「套娃」的自家底牌。
先说结论:这波模型不算革命性,但诚意和技术含金量都在线,而且对开发者非常友好。
MAI 模型全家桶一览:7 款自研模型覆盖推理、编码、图像、语音等多模态(来源:Microsoft AI Blog)
MAI 全家桶:一张表看明白
微软这次把 AI 能力铺得很散,从推理到语音到图像几乎全覆盖:
| 模型 | 参数规模 | 一句话定位 |
|---|---|---|
| MAI-Thinking-1 | 1T MoE / 35B 激活 | 推理旗舰,对标 Sonnet 4.6 |
| MAI-Code-1-Flash | 137B MoE / 5B 激活 | 编码专用,对标 Haiku 4.5 |
| MAI-Image-2.5 | 未公开 | 文生图 + 图编辑,Arena 领先 |
| MAI-Transcribe-1.5 | 未公开 | 语音转写,43 语言,SOTA |
| MAI-Voice-2 | 未公开 | 语音合成,15 语言,声音克隆 |
七个模型里最值得关注的,当然是 MAI-Thinking-1 和 MAI-Code-1-Flash。
MAI-Thinking-1:微软的推理王牌
先说参数:1 万亿总参数、35B 激活的 MoE 架构,256K 上下文窗口。这个规格放在今天不算「巨型模型」,但成绩挺吓人:
- AIME 2025(数学竞赛):97%——接近满分
- AIME 2026(更难的新版):94.5%——泛化能力很强
- 人类盲评 vs Sonnet 4.6:在 1,276 道题的双盲测试中,评审更偏好 MAI-Thinking-1
这组数据的看点不在于「超过了谁」,而在于微软是纯自研做出来的。Mustafa Suleyman 在博客里反复强调一个姿态:不蒸馏、不用第三方数据、不抄作业。全栈自己搭——从架构设计到训练管线到 RL 框架,甚至配合自家的 Maia 200 芯片做协同设计(目前已经拿到 1.4x 的效率提升)。
从从业者角度看,这意味着推理模型的训练壁垒没有想象那么高。只要能组织好训练数据和 RL 流程,35B 量级的活跃参数就能打出很漂亮的成绩。这对开源社区也是好信号。
MAI 模型核心 Benchmark 对比:Code-1-Flash 在 SWE-Bench Pro 51.2% vs Haiku 4.5 的 35.2%;Thinking-1 AIME 2025 达到 97%(来源:Microsoft AI Blog)
MAI-Code-1-Flash:码农的侧翼
如果 Thinking-1 是旗舰,那 Code-1-Flash 就是走量的大杀器。
137B 总参数、5B 活跃参数,本身就是为 GitHub Copilot 量身打造的。成绩也很直接:
- SWE-Bench Pro:51.2%(Haiku 4.5 是 35.2%,高出 16 个百分点)
- SWE-Bench Verified:同等任务少用 60% 的 token
- 指令遵循(IF Bench):比 Haiku 4.5 高出 28.9 个百分点
微软特意强调它的「自适应思考」特性——简单问题迅速回答,复杂问题会多花推理预算。在实际编码场景里,这个特性比纯 benchmark 分数更有感。
Frontier Tuning:比模型本身更有趣的概念
这次发布里最让我感兴趣的不是某个模型,而是 Frontier Tuning 这个概念。
微软的表述是:用 Reinforcement Learning Environments(RLE)让模型在企业实际工作流数据上做强化学习微调。意思是,你的模型不是从参数服务器上下载一个通用版本,而是让它在你组织内部的真实操作 traces 里学习怎么做事情。
最直接的例子:MAI 针对 Excel 场景做 Frontier Tuning 后,匹配 GPT 5.4 的性能,但成本低 10 倍。
这个思路对自建 Agent 工作流的人来说很有启发——最有价值的训练数据不是公共的 benchmark,而是你自己的操作轨迹。
Frontier Tuning 工作流:基础模型 → 企业操作轨迹 → RLE 强化学习 → 定制模型(来源:Microsoft AI Blog)
模型已开放给第三方平台:OpenRouter、Fireworks、Baseten 上都可以调用,还首次允许开发者自行微调权重。
和 Mayo Clinic 的合作
微软还宣布了和 Mayo Clinic(全球顶级医疗机构)共建医疗 AI 模型。比较特别的是,模型所有权归 Mayo Clinic,不是微软。这个模式在 AI 行业不常见——表明微软在医疗领域的姿态是「做工具,不做数据主人」。
值得留意的一个细节
这次 MAI 模型发布没有强调「开源」,模型权重也没有公开。开源社区能用的依然是微软之前发布的 Phi 系列(小参数模型)。MAI 系列走的是 API + 企业定制路线,不走社区路线。
但通过 OpenRouter 这类平台,个人开发者也能低成本试用到 Thinking-1 和 Code-1-Flash——不需要签企业合同,充个几十块钱就能跑 benchmark。
最后说两句
微软这次最大的进步,不是某个 benchmark 分数的刷新,而是证明了自己可以不靠 OpenAI 做出有竞争力的模型。全栈自研 + 不蒸馏 + 干净数据,这些口号真假难辨,但至少在产品层面,MAI 系列给出了实实在在的 API 和工具。
对于本地 AI 玩家,MAI-Thinking-1 的 35B 活跃参数也值得关注——虽然总参数量是 1T(靠 MoE 稀疏激活),但活跃部分只有 35B,某种意义上验证了「用 MoE 在消费级硬件上跑大模型」这个方向是可行的。
信息来源:Microsoft AI Blog,6月2日/8日更新