MOSS-TTS 全家桶 5/26 更新:一个中文团队开源的音频 AI 瑞士军刀

如果你一直在关注开源 TTS(文本转语音)方向,5 月 26 日这天值得标记:MOSI.AI 和 OpenMOSS 团队发布了 MOSS-TTS 全家桶的一次重要更新——v1.5 语音合成模型 + SoundEffect v2.0 音效模型,加上此前已发布的一整套模型,基本覆盖了从「读一段文本」到「多人对话配音」「实时语音助手」「文生音效」的完整链路。

一句话:MOSS-TTS 全家桶里有什么

OpenMOSS 团队把 TTS 拆成了六个独立模型,各有专攻,也可以组合成完整管线:

  • MOSS-TTS(8B):旗舰模型,零样本语音克隆 + 长语音合成,支持音素/时长精细控制
  • MOSS-TTSD(8B):多人对话生成,主观评测超越了豆包和 Gemini 2.5-pro(这点很猛)
  • MOSS-VoiceGenerator(1.7B):文生语音角色——直接用文字描述音色和风格,不需要参考音频
  • MOSS-TTS-Realtime(1.7B):流式实时合成,首字延迟 180ms,适合做语音助手
  • MOSS-SoundEffect v2.0(1.3B DiT):48kHz 音效生成,最长 30 秒,Flow Matching 架构
  • MOSS-TTS-Nano(0.1B):仅 1 亿参数,4 核 CPU 就能跑,还支持流式输出

v1.5 更新了什么

相比 1.0,v1.5 在几个关键点上做了改进:

  • 多语言加强:支持 31 种语言(新增粤语、荷兰语、芬兰语、印地语、泰语等 11 种),手动指定语言标签后合成质量明显提升
  • 声音克隆更稳:多次生成的一致性显著改善,不会每次出来声音都不一样
  • 长参考短文本克隆:用一段长音频做参考去合成一句话,v1.5 处理得更可靠
  • 显式停顿控制:支持 [pause 3.2s] 语法,可以精确控制句子中间的停顿时长
  • 标点驱动的韵律更稳定:长句中按标点断句的自然度有提升

SoundEffect v2.0:从 LLM 架构跳到了 DiT

音效模型这次改动比较大。v1.0 用的是 MossTTSDelay(类 LLM 架构),v2.0 换成了 DiT(Diffusion Transformer)+ Flow Matching,1.3B 参数,48kHz 立体声,最长 30 秒。支持中英文 prompt 描述。

这意味着你可以用自然语言描述「雨打在铁皮屋顶的声音」「科幻飞船引擎启动」之类,模型直接生成对应音频——对播客、视频制作、游戏音效场景非常实用。

几个值得注意的技术亮点

  • llama.cpp 支持:3 月初已支持纯 CPU 推理(ONNX + GGUF),8B 模型只需 8GB 显存,告别 PyTorch 依赖
  • SGLang 后端:约 3 倍推理加速,适用于生产部署
  • mlx-audio 支持:Apple Silicon Mac 用户的福音——直接走 MLX 推理
  • Apache 2.0 协议:商用友好,没有奇怪的附加条款

本地能不能跑?

根据 README 的信息:旗舰 8B 模型推荐 GPU(8GB+ 显存),但走 llama.cpp + ONNX 也可以在 CPU 上跑。如果你用的是 M 系列 Mac,走 mlx-audio 是最省事的路径。

小模型方面,Nano(0.1B)宣称 4 核 CPU 就能实时流式输出,很适合嵌入式或移动端场景。

我的看法

MOSS-TTS 全家桶是目前开源 TTS 领域最完整的方案之一,尤其 TTSD 在主观评测中超过豆包和 Gemini 这件事挺能说明中文团队在语音合成上的积累。

如果你在做语音助手、播客配音、有声书、语音克隆,这个全家桶值得放进工具箱。Apache 2.0 协议意味着可以放心集成到商业产品里——这在国产大模型生态里不算常见。

发表评论