Google Magenta 团队在 6 月 4 号悄咪咪放了个大招——Magenta RealTime 2。如果说上一代 MRT 更像一个能「离线渲染」的 AI 音乐生成器,那 MRT2 就是真正意义上的实时乐句工具:你弹一段 MIDI,它 200ms 内就跟着你的思路响。
而且全部本地运行,不需要联网,不需要 GPU——你的 MacBook Air 就能跑。

MRT2 整体架构:模型权重 → Python/C++ 推理引擎 → 4 个可直接运行的示例应用(来源:Google Magenta Blog)
为什么值得关注?
AI 生成音乐之前的问题很明确:延迟太大,没法实时交互。之前的模型(包括 MRT1)生成一段音频要等好几秒,放在 DAW 里你要先渲染、再听、再调,完全不是「弹奏」的体验。
MRT2 把控制延迟从 ~3 秒降到了 ~200ms,帧大小从 2 秒降到了 40ms。15 倍的提升。
MRT1 vs MRT2:15 倍延迟飞跃——控制延迟、帧大小、硬件要求、控制方式、模型大小和许可协议全面对比
这是什么概念?人类感知「实时」的阈值大概是 100-200ms(取决于场景)。200ms 已经足够让你跟着节拍做即兴发挥了——虽然不能说完全零感知,但已经进入了「可演奏」的范畴。
硬件门槛:低得惊人
| 模型 | 参数量 | 实时演奏 | 离线生成 |
|---|---|---|---|
| mrt2_small | 230M (~450MB) | 所有 Apple Silicon(含 Air) | 所有 Apple Silicon |
| mrt2_base | 2.4B (~2.5GB) | M3 Pro / M2 Max 及以上 | 同上 |
就是说你手上的 M1 MacBook Air 也能用 small 模型实时生成音乐。2.5GB 的大模型也不挑 GPU,M 系列的统一内存天然适合这种场景。
三模态控制:文本、音频、MIDI 一起上
MRT2 支持三种控制信号,可以同时用:
- 文本提示——描述风格,比如 disco funk、ambient pads with sub bass
- 音频参考——给一段现有音频做风格参考
- MIDI 输入——直接弹一段旋律控制生成
这三个信号通过 Multi-signal CFG(分类器自由引导) 混合,你可以分别调节每个信号的强度。比如把 MIDI 强度拉满、文本放弱,就是「按我弹的即兴生成,但风格请参考这个提示词」。
另外还有个细节:MRT2 支持 Auto-Strum(自动琶音,模型决定触发时机)和 Explicit Onset(你精确控制每个音符的起止)两种模式,看你想要「跟着感觉走」还是「精确控制每一个音」。
技术架构:一边播一边算
MRT2 基于 SpectroStream 编解码器——48kHz 立体声压到 3 kbps,25Hz 帧率,每帧 12 个 RVQ token。生成时采用因果滑动窗口注意力(SWA),只保留最近一段 KV cache,可以持续流式生成。
有意思的一点是它用了 NoPE(No Positional Embeddings)——不做位置编码反而在长序列生成上更稳定。配合可学习的 attention sink,即使窗口滑动也不会丢掉上下文。

MRT2 端到端延迟约 200ms:输入缓冲 → 帧处理(40ms) → 深度解码 → 编解码器 → 输出缓冲(来源:Google Magenta Blog)
拿来就能用的 4 个应用
Google 直接给了四个成品应用,GitHub 上源码全开(Apache 2.0):
- Jam——独立 APP,带风格预设和完整的 MIDI 控制界面
- Collider——实时混合两种风格输入,生成过渡纹理。比如从 jazz 平滑过渡到 electronic
- MRT2 Plugin(AUv3)——直接插进 Logic Pro、GarageBand,在 DAW 里当插件用
- Creative Coding Extensions——自定义集成接口,适合做实验
对大多数用户来说,最实用的可能是 AUv3 插件——直接在 Logic Pro 里打开就能用,不用切窗口。
在 MacBook 上跑起来
快速体验只需要几条命令:
pip install magenta-rt[mlx]
mrt models init
mrt models download
# 生成 4 秒 disco funk
mrt mlx generate --prompt "disco funk" --duration 4.0 --model=mrt2_base
小模型(230M)第一次下载完大概占 450MB 磁盘,大模型(2.4B)约 2.5GB。推荐用 uv 管理 Python 环境,避免污染系统 Python。
如果要用 C++ 原生引擎做更低延迟的部署,需要从 GitHub 克隆源码并用 cmake 构建:
git clone --recurse-submodules https://github.com/magenta/magenta-realtime.git
cd magenta-realtime
uv pip install -e ".[mlx]"
uv pip install "cmake<3.28"
cmake . -B build
cmake --build build --target hello_mrt2 -j10
注意事项
- 目前只支持 Apple Silicon(M 系列),Intel Mac 别想了。项目有计划支持 NVIDIA GPU 的 C++ 后端,但还没出来
- 权重许可 CC-BY-4.0,可以商用但需要署名
- Small 模型实时没问题,但音质不如 Base 模型。Base 模型实时要求 M3 Pro 或 M2 Max 以上
- 首次使用需要从 HuggingFace 下载模型权重(约 2.5GB / 450MB)
- 暂不支持微调,官方说未来会加
总结
MRT2 是一个真正的转折点:AI 音乐生成从「离线渲染」进入了「实时演奏」时代。它不依赖云端、不需要高端 GPU、有 DAW 插件可以直接用——对于一个开源模型来说,这个完成度相当高。
如果你有一台 Apple Silicon MacBook,又对音乐生成感兴趣,现在就可以上手试试——pip install 加一条命令就能听到结果,没什么比这更方便的了。
来源:Google Magenta Blog · GitHub · HuggingFace