Microsoft 一口气发了 7 个自研 AI 模型：MAI 全家桶到底有多能打？

六月初，微软 AI（就是 Mustafa Suleyman 带的那支团队）一口气端出了七款自研模型，取名 MAI 系列。这事表面上是例行模型发布，但仔细看会发现几个有意思的信号——微软终于拿出了不和 OpenAI「套娃」的自家底牌。

先说结论：这波模型不算革命性，但诚意和技术含金量都在线，而且对开发者非常友好。

MAI 模型全家桶一览：7 款自研模型覆盖推理、编码、图像、语音等多模态（来源：Microsoft AI Blog）

MAI 全家桶：一张表看明白

微软这次把 AI 能力铺得很散，从推理到语音到图像几乎全覆盖：

模型	参数规模	一句话定位
MAI-Thinking-1	1T MoE / 35B 激活	推理旗舰，对标 Sonnet 4.6
MAI-Code-1-Flash	137B MoE / 5B 激活	编码专用，对标 Haiku 4.5
MAI-Image-2.5	未公开	文生图 + 图编辑，Arena 领先
MAI-Transcribe-1.5	未公开	语音转写，43 语言，SOTA
MAI-Voice-2	未公开	语音合成，15 语言，声音克隆

七个模型里最值得关注的，当然是 MAI-Thinking-1 和 MAI-Code-1-Flash。

MAI-Thinking-1：微软的推理王牌

先说参数：1 万亿总参数、35B 激活的 MoE 架构，256K 上下文窗口。这个规格放在今天不算「巨型模型」，但成绩挺吓人：

AIME 2025（数学竞赛）：97%——接近满分
AIME 2026（更难的新版）：94.5%——泛化能力很强
人类盲评 vs Sonnet 4.6：在 1,276 道题的双盲测试中，评审更偏好 MAI-Thinking-1

这组数据的看点不在于「超过了谁」，而在于微软是纯自研做出来的。Mustafa Suleyman 在博客里反复强调一个姿态：不蒸馏、不用第三方数据、不抄作业。全栈自己搭——从架构设计到训练管线到 RL 框架，甚至配合自家的 Maia 200 芯片做协同设计（目前已经拿到 1.4x 的效率提升）。

从从业者角度看，这意味着推理模型的训练壁垒没有想象那么高。只要能组织好训练数据和 RL 流程，35B 量级的活跃参数就能打出很漂亮的成绩。这对开源社区也是好信号。

MAI 模型核心 Benchmark 对比：Code-1-Flash 在 SWE-Bench Pro 51.2% vs Haiku 4.5 的 35.2%；Thinking-1 AIME 2025 达到 97%（来源：Microsoft AI Blog）

MAI-Code-1-Flash：码农的侧翼

如果 Thinking-1 是旗舰，那 Code-1-Flash 就是走量的大杀器。

137B 总参数、5B 活跃参数，本身就是为 GitHub Copilot 量身打造的。成绩也很直接：

SWE-Bench Pro：51.2%（Haiku 4.5 是 35.2%，高出 16 个百分点）
SWE-Bench Verified：同等任务少用 60% 的 token
指令遵循（IF Bench）：比 Haiku 4.5 高出 28.9 个百分点

微软特意强调它的「自适应思考」特性——简单问题迅速回答，复杂问题会多花推理预算。在实际编码场景里，这个特性比纯 benchmark 分数更有感。

Frontier Tuning：比模型本身更有趣的概念

这次发布里最让我感兴趣的不是某个模型，而是 Frontier Tuning 这个概念。

微软的表述是：用 Reinforcement Learning Environments（RLE）让模型在企业实际工作流数据上做强化学习微调。意思是，你的模型不是从参数服务器上下载一个通用版本，而是让它在你组织内部的真实操作 traces 里学习怎么做事情。

最直接的例子：MAI 针对 Excel 场景做 Frontier Tuning 后，匹配 GPT 5.4 的性能，但成本低 10 倍。

这个思路对自建 Agent 工作流的人来说很有启发——最有价值的训练数据不是公共的 benchmark，而是你自己的操作轨迹。

Frontier Tuning 工作流：基础模型 → 企业操作轨迹 → RLE 强化学习 → 定制模型（来源：Microsoft AI Blog）

模型已开放给第三方平台：OpenRouter、Fireworks、Baseten 上都可以调用，还首次允许开发者自行微调权重。

和 Mayo Clinic 的合作

微软还宣布了和 Mayo Clinic（全球顶级医疗机构）共建医疗 AI 模型。比较特别的是，模型所有权归 Mayo Clinic，不是微软。这个模式在 AI 行业不常见——表明微软在医疗领域的姿态是「做工具，不做数据主人」。

值得留意的一个细节

这次 MAI 模型发布没有强调「开源」，模型权重也没有公开。开源社区能用的依然是微软之前发布的 Phi 系列（小参数模型）。MAI 系列走的是 API + 企业定制路线，不走社区路线。

但通过 OpenRouter 这类平台，个人开发者也能低成本试用到 Thinking-1 和 Code-1-Flash——不需要签企业合同，充个几十块钱就能跑 benchmark。

最后说两句

微软这次最大的进步，不是某个 benchmark 分数的刷新，而是证明了自己可以不靠 OpenAI 做出有竞争力的模型。全栈自研 + 不蒸馏 + 干净数据，这些口号真假难辨，但至少在产品层面，MAI 系列给出了实实在在的 API 和工具。

对于本地 AI 玩家，MAI-Thinking-1 的 35B 活跃参数也值得关注——虽然总参数量是 1T（靠 MoE 稀疏激活），但活跃部分只有 35B，某种意义上验证了「用 MoE 在消费级硬件上跑大模型」这个方向是可行的。

信息来源：Microsoft AI Blog，6月2日/8日更新