MOSS-Music 是由 MOSI.AI、OpenMOSS 团队 及 上海人工智能研究院 联合开发的开源音乐理解模型。该模型基于 MOSS-Audio 的音频骨干网络构建,通过专门的持续预训练与监督微调进一步聚焦音乐领域,旨在实现音乐 captioning、歌词 ASR、结构分析、和弦/调式/速度推理及长音频音乐问答等功能。本次发布包含两个 8B 模型:MOSS-Music-8B-Instruct 和 MOSS-Music-8B-Thinking。其中 Instruct 版本针对音乐指令的直接跟随进行了优化,而 Thinking 版本则在音乐分析任务中具备更强的思维链推理能力。
音乐不仅仅是音频与歌词的简单叠加——要理解音乐,需要感知和声结构、节奏、音色、乐器编排、演奏细节以及歌词的文本内容,并对这些要素进行跨时间的综合推理。MOSS-Music 的构建目标是在单一模型中整合这些能力。
MOSS-Music 继承了 MOSS-Audio 的模块化设计,包含三个组件:音频编码器、模态适配器和大型语言模型。原始音频首先由MOSS-Audio-Encoder 编码为 12.5 Hz 的连续时间表征,然后通过适配器投影到语言模型的嵌入空间,最后由 LLM 进行自回归文本生成。
我们没有依赖现成的音频前端,而是从头开始训练专用编码器,以获得更鲁棒的声学表征、更紧密的时间对齐,以及在不同音乐风格、歌唱和非语音声学内容上更好的可扩展性。
仅使用编码器的顶层特征往往会丢失底层韵律、瞬态事件和局部时频结构。为解决这一问题,我们在编码器和语言模型之间采用了受DeepStack启发的跨层注入模块:除编码器的最终层输出外,还选择早期和中间层的特征,对其进行独立投影后注入语言模型的早期层,从而保留从底层声学细节到高层语义抽象的多粒度信息。
这种设计特别适用于音乐理解,因为它有助于保留节奏、音色、瞬态和乐器纹理——这些信息是单一高层表示无法完全捕获的,但对于和弦识别、结构分析和细致的音乐描述至关重要。
时间是音乐理解中的关键维度。为增强显式时间感知能力,我们在预训练阶段采用时间标记插入策略:以固定时间间隔在音频帧表示之间插入显式时间标记,以指示时间位置。这种设计使模型能够在统一的文本生成框架中学习“何时发生了什么”,自然支持带时间戳的歌词语音识别(ASR)、节拍/重拍定位、段落边界检测以及长歌曲回顾性问答(QA)。
在MOSS-Audio基础上,MOSS-Music通过以下方式进一步增强:
MOSS-Music-Data-Pipeline 生成的大型多样化音乐语料库上进行持续预训练,重点覆盖歌唱、歌词和完整歌曲;| 模型 | 音频编码器 | 大语言模型底座 | 总参数量 | Hugging Face | ModelScope |
|---|---|---|---|---|---|
| MOSS‑Music‑8B‑Instruct | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B | ||
| MOSS‑Music‑8B‑Thinking | MOSS-Audio-Encoder | Qwen3-8B | ~9.1B |
更小的(4B)版本及其他规格可能会后续推出,敬请期待!
MOSS-Music 所使用的训练数据通过一套端到端流程生成,该流程涵盖从原始音频到聊天格式训练样本的全过程。此流程已在
MOSS-Music-Data-Pipeline 开源,包含时长检测、音乐信息检索(MIR)特征提取、歌曲结构分段、歌词语音识别(ASR)、元数据清洗,以及利用 Qwen3-Omni、MusicFlamingo 等音频语言模型进行的基于音频语言模型(ALM)的标题/查询生成。
我们在一系列多样化的公开音乐理解基准上对 MOSS-Music 进行了评估。主要结果如下:
MOSS-Music-8B-Thinking 在 MusicCaps 上达到 4.53,MOSS-Music-8B-Instruct 在 SDD 上达到 4.58。MUSDB18、MIR-1K 和 Opencpop 三个数据集上的平均歌词识别错误率(15.88% 平均词错误率/字符错误率)表现最佳,明显优于包括 Gemini-3.1-Pro-Preview、MusicFlamingo 和 Qwen3-Omni 在内的所有对比音频语言基线模型。详细的带时间戳的语音识别结果将在后续更新中发布。
| 模型 | MMAU-music | MMAU-mini-music | MMAU-Pro-music | MMAR-music | MuChoMusic | Music-AVQA | NSynth (instrument) | NSynth (source) | NSynth (pitch) | GTZAN | Medley-Solos-DB | 平均值 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MOSS‑Music‑8B‑Instruct | 79.33 | 80.78 | 71.02 | 59.70 | 89.39 | 76.78 | 86.55 | 61.07 | 86.94 | 93.59 | 92.42 | 80.38 |
| Gemini‑3.1‑Pro | 71.69 | 77.18 | 73.06 | 71.64 | 79.53 | 61.51 | 13.38 | 38.90 | 6.47 | 86.39 | 80.34 | 75.17 |
| MOSS‑Music‑8B‑Thinking | 74.09 | 77.78 | 67.98 | 50.25 | 82.90 | 68.90 | 56.17 | 57.48 | 77.83 | 84.78 | 87.42 | 74.26 |
| MusicFlamingo | 76.83 | 76.35 | 65.60 | 48.66 | 74.58 | 73.60 | 80.76 | 75.89 | 0.00 | 84.45 | 90.86 | 73.87 |
| Audio‑Flamingo‑Next | 72.39 | 72.07 | 61.64 | 45.27 | 75.62 | 62.94 | 86.40 | 66.73 | 0.05 | 77.68 | 91.47 | 69.89 |
| MiMo‑Audio‑7B‑Instruct | 66.36 | 72.97 | 66.50 | 45.77 | 75.40 | 57.05 | 25.01 | 1.49 | 4.86 | 65.67 | 93.81 | 67.94 |
| Step‑Audio‑R1 | 66.46 | 75.08 | 62.34 | 50.75 | 72.62 | 57.98 | 13.75 | 15.87 | 2.39 | 73.67 | 82.45 | 67.67 |
| Qwen3‑Omni | 65.76 | 68.77 | 66.27 | 48.54 | 78.77 | 56.05 | 30.92 | 44.30 | 28.08 | 80.15 | 69.65 | 66.75 |
| Kimi‑Audio‑7B‑Instruct | 47.95 | 52.25 | 59.10 | 45.27 | 70.18 | 68.90 | 6.01 | 0.81 | 3.88 | 39.54 | 71.98 | 56.90 |
平均值是基于8个公开音乐问答基准计算得出:MMAU-music、MMAU-mini-music、MMAU-Pro-music、MMAR-music、MuChoMusic、Music-AVQA、GTZAN和Medley-Solos-DB。我们在主要平均值中排除了三个
NSynth指标,因为它们专注于细粒度的孤立音符识别,包括乐器家族、原声/电子音源以及从短单音片段中精确的音高辨别。部分对比的音频语言模型并非明确针对这种音符级分类场景设计,因此我们将NSynth单独列出作为参考,而非纳入主要平均值计算。
我们进一步报告了在MusicCaps和歌曲描述数据集(SDD)上使用GPT-5.4作为评测器进行的初步音乐描述生成对比。评分采用1-5分制,涵盖9个维度:genre/style(风格/流派)、mood/affect(情绪/情感)、tempo/rhythm(速度/节奏)、instrumentation/timbre(乐器编配/音色)、vocals(人声)、melody/harmony(旋律/和声)、structure/form(结构/曲式)、production/audio quality(制作/音频质量)以及scene/use case(场景/应用场景)。
MOSS-Music-8B-Thinking在MusicCaps上达到4.53分,MOSS-Music-8B-Instruct在SDD上达到4.58分。structure / form / progression(结构/曲式/进行)维度上表现出最显著的优势,尤其在SDD数据集上。MusicFlamingo和Gemini-3.1-Pro在instrumentation/timbre(乐器编配/音色)方面仍具竞争力,而Gemini-3.1-Pro在scene / use case(场景/应用场景)维度上表现最佳。| 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| MOSS‑Music‑8B‑Thinking | 4.78 | 4.69 | 4.62 | 4.40 | 4.46 | 4.40 | 4.86 | 4.35 | 4.18 | 4.53 |
| Gemini‑3.1‑Pro | 4.70 | 4.60 | 4.48 | 4.68 | 4.18 | 4.18 | 3.86 | 4.40 | 4.72 | 4.42 |
| MOSS‑Music‑8B‑Instruct | 4.60 | 4.52 | 4.46 | 4.02 | 4.30 | 4.38 | 4.78 | 4.20 | 3.96 | 4.36 |
| MusicFlamingo | 4.80 | 4.36 | 4.50 | 4.64 | 3.94 | 4.08 | 3.58 | 4.30 | 3.72 | 4.21 |
| Audio‑Flamingo‑Next | 4.34 | 4.56 | 4.08 | 4.30 | 4.18 | 3.78 | 3.66 | 4.04 | 3.92 | 4.10 |
| MiMo‑Audio‑7B‑Instruct | 4.02 | 4.20 | 4.46 | 4.28 | 4.36 | 3.62 | 3.30 | 4.08 | 3.50 | 3.98 |
| Step‑Audio‑R1 | 4.22 | 4.02 | 4.20 | 3.96 | 3.84 | 4.02 | 3.24 | 4.10 | 3.54 | 3.90 |
| Qwen3‑Omni | 4.58 | 4.50 | 4.26 | 3.62 | 3.64 | 3.48 | 2.98 | 4.18 | 4.42 | 3.96 |
| Kimi‑Audio‑7B‑Instruct | 3.98 | 3.92 | 4.32 | 3.88 | 4.48 | 3.28 | 2.72 | 3.72 | 3.24 | 3.73 |
| 模型 | Genre | Mood | Tempo | Instr. | Vocals | Melody/Harmony | Structure | Production | Scene | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| MOSS‑Music‑8B‑Instruct | 4.84 | 4.76 | 4.68 | 4.24 | 4.52 | 4.56 | 4.92 | 4.42 | 4.24 | 4.58 |
| Gemini‑3.1‑Pro | 4.72 | 4.64 | 4.52 | 4.72 | 4.22 | 4.24 | 3.94 | 4.46 | 4.82 | 4.48 |
| MOSS‑Music‑8B‑Thinking | 4.66 | 4.58 | 4.50 | 4.36 | 4.36 | 4.44 | 4.84 | 4.26 | 4.02 | 4.45 |
| MusicFlamingo | 4.82 | 4.40 | 4.52 | 4.70 | 3.98 | 4.14 | 3.66 | 4.36 | 3.80 | 4.26 |
| Audio‑Flamingo‑Next | 4.40 | 4.62 | 4.14 | 4.36 | 4.22 | 3.84 | 3.74 | 4.10 | 4.00 | 4.16 |
| MiMo‑Audio‑7B‑Instruct | 4.08 | 4.26 | 4.52 | 4.34 | 4.42 | 3.70 | 3.38 | 4.16 | 3.58 | 4.05 |
| Step‑Audio‑R1 | 4.30 | 4.10 | 4.26 | 4.02 | 3.92 | 4.10 | 3.32 | 4.18 | 3.62 | 3.98 |
| Qwen3‑Omni | 4.62 | 4.54 | 4.30 | 3.68 | 3.70 | 3.56 | 3.06 | 4.24 | 4.50 | 4.02 |
| Kimi‑Audio‑7B‑Instruct | 4.04 | 3.98 | 4.38 | 3.96 | 4.54 | 3.36 | 2.80 | 3.80 | 3.32 | 3.80 |
我们进一步在歌声歌词语音识别任务上对MOSS-Music进行了评估,涉及三个代表性基准测试集:
MUSDB18——带伴奏的英文流行歌曲,采用WER评分;MIR-1K——带背景音乐的中文卡拉OK片段,采用CER评分;Opencpop——清晰的普通话录音室演唱,采用CER评分。Avg为三个数据集级别错误率的未加权平均值。
| 模型 | MUSDB18 WER | MIR-1K CER | Opencpop CER | Avg |
|---|---|---|---|---|
| MOSS‑Music‑8B‑Thinking | 29.19% | 15.84% | 2.60% | 15.88% |
| MOSS‑Music‑8B‑Instruct | 32.99% | 23.96% | 4.62% | 20.52% |
| Gemini‑3.1‑Pro‑Preview | 26.25% | 36.37% | 6.00% | 22.87% |
| MusicFlamingo | 23.41% | 38.98% | 18.73% | 27.04% |
| Qwen3‑Omni‑30B‑A3B‑Instruct | 62.67% | 20.48% | 2.26% | 28.47% |
| MiMo‑Audio‑7B‑Instruct | 94.16% | 23.34% | 6.77% | 41.42% |
| Kimi‑Audio‑7B‑Instruct | 97.53% | 25.83% | 4.90% | 42.75% |
| Step‑Audio‑R1 | 81.67% | 48.03% | 4.15% | 44.62% |
| Audio‑Flamingo‑Next | 94.93% | 55.63% | 12.47% | 54.34% |
MOSS-Music-8B-Thinking在这三个数据集上实现了最低的平均歌词语音识别错误率(15.88%),尤其在
MIR-1K(带伴奏的中文卡拉OK)和Opencpop(清晰的普通话演唱)上表现突出。MOSS-Music还继承了MOSS-Audio强大的时间戳感知语音识别能力;详细的歌唱时间戳语音识别结果将很快补充。
MOSS-Music支持和弦转录,包括跟踪和弦随时间变化的带时间戳和弦转录。这可用于和声分析、伴奏参考、音乐教育及相关应用场景。详细的基准测试结果将很快补充。
我们建议使用Python 3.12和干净的Conda环境。以下命令足以满足本地推理需求。
git clone https://github.com/OpenMOSS/MOSS-Music.git
cd MOSS-Music
conda create -n moss-music python=3.12 -y
conda activate moss-music
conda install -c conda-forge "ffmpeg=7" -y
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"如果您的 GPU 支持 FlashAttention 2,可以将最后的安装命令替换为:
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"[!IMPORTANT] 为实现最佳生成质量并充分发挥模型性能,我们强烈建议使用 SGLang Serving 进行推理。
详见 moss_music_usage_guide.md 中的完整 SGLang 指南。
请先下载模型:
hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking最短的设置步骤如下:
cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..
sglang serve \
--model-path ./weights/MOSS-Music-8B-Instruct \
--trust-remote-code如果需要,你可以将 ./weights/MOSS-Music-8B-Instruct 替换为 ./weights/MOSS-Music-8B-Thinking。
如果你使用默认的 torch==2.9.1+cu128 运行环境,建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。
通过以下命令启动 Gradio 演示:
python app.py可以通过 MOSS_MUSIC_SERVER_NAME 和 MOSS_MUSIC_SERVER_PORT 环境变量覆盖服务器地址和端口,通过 MOSS_MUSIC_MODEL_ID 覆盖默认模型 ID。
MOSS-Music 中的模型采用 Apache License 2.0 许可证。
@misc{mossmusic2026,
title={MOSS-Music Technical Report},
author={OpenMOSS Team},
year={2026},
howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
note={GitHub repository}
}