MOSS-Music

MOSS-Music logo

MOSS-Music 是由 MOSI.AI、OpenMOSS 团队及上海人工智能研究院联合开发的开源音乐理解模型。该模型基于 MOSS-Audio 的音频骨干网络构建，通过专门的持续预训练与监督微调进一步聚焦音乐领域，旨在实现音乐 captioning、歌词 ASR、结构分析、和弦/调式/速度推理及长音频音乐问答等功能。本次发布包含两个 8B 模型：MOSS-Music-8B-Instruct 和 MOSS-Music-8B-Thinking。其中 Instruct 版本针对音乐指令的直接跟随进行了优化，而 Thinking 版本则在音乐分析任务中具备更强的思维链推理能力。

新闻

2026.05.01: 🎉🎉🎉 我们正式发布 MOSS-Music。
2026.05.01: 🎉🎉🎉 我们同步发布用于大规模音乐数据标注与处理的 MOSS-Music-Data-Pipeline。

引言

音乐不仅仅是音频与歌词的简单叠加——要理解音乐，需要感知和声结构、节奏、音色、乐器编排、演奏细节以及歌词的文本内容，并对这些要素进行跨时间的综合推理。MOSS-Music 的构建目标是在单一模型中整合这些能力。

歌词语音识别与时间对齐转录：精准的歌唱语音识别，提供句子级和词语级时间戳，对伴奏音轨具有较强的鲁棒性。
音乐 captioning 与标签：对音乐的情绪、风格、乐器编排、制作手法及情感走向进行自然语言描述。
调式/速度/和弦推理：识别音乐的调式、节拍、重拍以及和弦进行，包括带时间戳的和弦转录。
结构分析：将歌曲分割为前奏/主歌/副歌/桥段/尾奏等部分，并对重复与对比关系进行推理。
乐器与人声识别：识别主要乐器及歌唱人声（独唱/合唱、性别、音域）。
音乐问答与长文本分析：基于完整音轨的开放式问答，在 Thinking 变体中包含思维链推理。

MOSS-Music overview

模型架构

MOSS-Music 继承了 MOSS-Audio 的模块化设计，包含三个组件：音频编码器、模态适配器和大型语言模型。原始音频首先由MOSS-Audio-Encoder 编码为 12.5 Hz 的连续时间表征，然后通过适配器投影到语言模型的嵌入空间，最后由 LLM 进行自回归文本生成。

我们没有依赖现成的音频前端，而是从头开始训练专用编码器，以获得更鲁棒的声学表征、更紧密的时间对齐，以及在不同音乐风格、歌唱和非语音声学内容上更好的可扩展性。

DeepStack跨层特征注入

仅使用编码器的顶层特征往往会丢失底层韵律、瞬态事件和局部时频结构。为解决这一问题，我们在编码器和语言模型之间采用了受DeepStack启发的跨层注入模块：除编码器的最终层输出外，还选择早期和中间层的特征，对其进行独立投影后注入语言模型的早期层，从而保留从底层声学细节到高层语义抽象的多粒度信息。

这种设计特别适用于音乐理解，因为它有助于保留节奏、音色、瞬态和乐器纹理——这些信息是单一高层表示无法完全捕获的，但对于和弦识别、结构分析和细致的音乐描述至关重要。

时间感知表示

时间是音乐理解中的关键维度。为增强显式时间感知能力，我们在预训练阶段采用时间标记插入策略：以固定时间间隔在音频帧表示之间插入显式时间标记，以指示时间位置。这种设计使模型能够在统一的文本生成框架中学习“何时发生了什么”，自然支持带时间戳的歌词语音识别（ASR）、节拍/重拍定位、段落边界检测以及长歌曲回顾性问答（QA）。

在MOSS-Audio基础上，MOSS-Music通过以下方式进一步增强：

在由数据标注与处理 pipeline MOSS-Music-Data-Pipeline 生成的大型多样化音乐语料库上进行持续预训练，重点覆盖歌唱、歌词和完整歌曲；
在以音乐为中心的指令数据上进行监督微调（SFT），涵盖音乐描述生成、歌词语音识别、和弦/调式/结构分析以及长形式音乐问答；
为Thinking变体进行额外的推理调优。

已发布模型

模型	音频编码器	大语言模型底座	总参数量	Hugging Face	ModelScope
MOSS‑Music‑8B‑Instruct	MOSS-Audio-Encoder	Qwen3-8B	~9.1B
MOSS‑Music‑8B‑Thinking	MOSS-Audio-Encoder	Qwen3-8B	~9.1B

更小的（4B）版本及其他规格可能会后续推出，敬请期待！

音乐数据处理流程

MOSS-Music 所使用的训练数据通过一套端到端流程生成，该流程涵盖从原始音频到聊天格式训练样本的全过程。此流程已在 MOSS-Music-Data-Pipeline 开源，包含时长检测、音乐信息检索（MIR）特征提取、歌曲结构分段、歌词语音识别（ASR）、元数据清洗，以及利用 Qwen3-Omni、MusicFlamingo 等音频语言模型进行的基于音频语言模型（ALM）的标题/查询生成。

评估

我们在一系列多样化的公开音乐理解基准上对 MOSS-Music 进行了评估。主要结果如下：

音乐问答与理解：MOSS-Music-8B-Instruct 在 8 个公开音乐问答基准（不包含三个 NSynth 音符识别任务）上的平均准确率达到 80.38，在我们当前的评估集合中，其性能在所有对比模型中排名第一。
音乐标题生成：在我们初步的 GPT-5.4-as-a-Judge 评估中，MOSS-Music 系列在两个标题生成基准上均处于领先地位。其中，MOSS-Music-8B-Thinking 在 MusicCaps 上达到 4.53，MOSS-Music-8B-Instruct 在 SDD 上达到 4.58。
歌声歌词语音识别：MOSS-Music-8B-Thinking 在 MUSDB18、MIR-1K 和 Opencpop 三个数据集上的平均歌词识别错误率（15.88% 平均词错误率/字符错误率）表现最佳，明显优于包括 Gemini-3.1-Pro-Preview、MusicFlamingo 和 Qwen3-Omni 在内的所有对比音频语言基线模型。详细的带时间戳的语音识别结果将在后续更新中发布。
和弦转录：MOSS-Music 支持和弦转录，包括用于和声分析、伴奏参考及相关下游应用的带时间戳和弦转录。详细的基准测试结果将在后续更新中发布。

音乐问答与理解（准确率↑）

模型	MMAU-music	MMAU-mini-music	MMAU-Pro-music	MMAR-music	MuChoMusic	Music-AVQA	NSynth (instrument)	NSynth (source)	NSynth (pitch)	GTZAN	Medley-Solos-DB	平均值
MOSS‑Music‑8B‑Instruct	79.33	80.78	71.02	59.70	89.39	76.78	86.55	61.07	86.94	93.59	92.42	80.38
Gemini‑3.1‑Pro	71.69	77.18	73.06	71.64	79.53	61.51	13.38	38.90	6.47	86.39	80.34	75.17
MOSS‑Music‑8B‑Thinking	74.09	77.78	67.98	50.25	82.90	68.90	56.17	57.48	77.83	84.78	87.42	74.26
MusicFlamingo	76.83	76.35	65.60	48.66	74.58	73.60	80.76	75.89	0.00	84.45	90.86	73.87
Audio‑Flamingo‑Next	72.39	72.07	61.64	45.27	75.62	62.94	86.40	66.73	0.05	77.68	91.47	69.89
MiMo‑Audio‑7B‑Instruct	66.36	72.97	66.50	45.77	75.40	57.05	25.01	1.49	4.86	65.67	93.81	67.94
Step‑Audio‑R1	66.46	75.08	62.34	50.75	72.62	57.98	13.75	15.87	2.39	73.67	82.45	67.67
Qwen3‑Omni	65.76	68.77	66.27	48.54	78.77	56.05	30.92	44.30	28.08	80.15	69.65	66.75
Kimi‑Audio‑7B‑Instruct	47.95	52.25	59.10	45.27	70.18	68.90	6.01	0.81	3.88	39.54	71.98	56.90

平均值是基于8个公开音乐问答基准计算得出： MMAU-music、MMAU-mini-music、MMAU-Pro-music、MMAR-music、 MuChoMusic、Music-AVQA、GTZAN 和 Medley-Solos-DB。

我们在主要平均值中排除了三个NSynth指标，因为它们专注于细粒度的孤立音符识别，包括乐器家族、原声/电子音源以及从短单音片段中精确的音高辨别。部分对比的音频语言模型并非明确针对这种音符级分类场景设计，因此我们将NSynth单独列出作为参考，而非纳入主要平均值计算。

音乐描述生成

我们进一步报告了在MusicCaps和歌曲描述数据集（SDD）上使用GPT-5.4作为评测器进行的初步音乐描述生成对比。评分采用1-5分制，涵盖9个维度：genre/style（风格/流派）、mood/affect（情绪/情感）、tempo/rhythm（速度/节奏）、instrumentation/timbre（乐器编配/音色）、vocals（人声）、melody/harmony（旋律/和声）、structure/form（结构/曲式）、production/audio quality（制作/音频质量）以及scene/use case（场景/应用场景）。

整体描述质量：MOSS-Music系列在两个描述基准测试中均保持领先，其中MOSS-Music-8B-Thinking在MusicCaps上达到4.53分，MOSS-Music-8B-Instruct在SDD上达到4.58分。
更强的结构描述能力：MOSS-Music在structure / form / progression（结构/曲式/进行）维度上表现出最显著的优势，尤其在SDD数据集上。
乐器编配与场景语义的竞争基线：MusicFlamingo和Gemini-3.1-Pro在instrumentation/timbre（乐器编配/音色）方面仍具竞争力，而Gemini-3.1-Pro在scene / use case（场景/应用场景）维度上表现最佳。

MusicCaps

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	平均
MOSS‑Music‑8B‑Thinking	4.78	4.69	4.62	4.40	4.46	4.40	4.86	4.35	4.18	4.53
Gemini‑3.1‑Pro	4.70	4.60	4.48	4.68	4.18	4.18	3.86	4.40	4.72	4.42
MOSS‑Music‑8B‑Instruct	4.60	4.52	4.46	4.02	4.30	4.38	4.78	4.20	3.96	4.36
MusicFlamingo	4.80	4.36	4.50	4.64	3.94	4.08	3.58	4.30	3.72	4.21
Audio‑Flamingo‑Next	4.34	4.56	4.08	4.30	4.18	3.78	3.66	4.04	3.92	4.10
MiMo‑Audio‑7B‑Instruct	4.02	4.20	4.46	4.28	4.36	3.62	3.30	4.08	3.50	3.98
Step‑Audio‑R1	4.22	4.02	4.20	3.96	3.84	4.02	3.24	4.10	3.54	3.90
Qwen3‑Omni	4.58	4.50	4.26	3.62	3.64	3.48	2.98	4.18	4.42	3.96
Kimi‑Audio‑7B‑Instruct	3.98	3.92	4.32	3.88	4.48	3.28	2.72	3.72	3.24	3.73

歌曲描述数据集（SDD）

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	平均
MOSS‑Music‑8B‑Instruct	4.84	4.76	4.68	4.24	4.52	4.56	4.92	4.42	4.24	4.58
Gemini‑3.1‑Pro	4.72	4.64	4.52	4.72	4.22	4.24	3.94	4.46	4.82	4.48
MOSS‑Music‑8B‑Thinking	4.66	4.58	4.50	4.36	4.36	4.44	4.84	4.26	4.02	4.45
MusicFlamingo	4.82	4.40	4.52	4.70	3.98	4.14	3.66	4.36	3.80	4.26
Audio‑Flamingo‑Next	4.40	4.62	4.14	4.36	4.22	3.84	3.74	4.10	4.00	4.16
MiMo‑Audio‑7B‑Instruct	4.08	4.26	4.52	4.34	4.42	3.70	3.38	4.16	3.58	4.05
Step‑Audio‑R1	4.30	4.10	4.26	4.02	3.92	4.10	3.32	4.18	3.62	3.98
Qwen3‑Omni	4.62	4.54	4.30	3.68	3.70	3.56	3.06	4.24	4.50	4.02
Kimi‑Audio‑7B‑Instruct	4.04	3.98	4.38	3.96	4.54	3.36	2.80	3.80	3.32	3.80

歌词语音识别（WER/CER↓）

我们进一步在歌声歌词语音识别任务上对MOSS-Music进行了评估，涉及三个代表性基准测试集：

MUSDB18——带伴奏的英文流行歌曲，采用WER评分；
MIR-1K——带背景音乐的中文卡拉OK片段，采用CER评分；
Opencpop——清晰的普通话录音室演唱，采用CER评分。

Avg为三个数据集级别错误率的未加权平均值。

模型	MUSDB18 WER	MIR-1K CER	Opencpop CER	Avg
MOSS‑Music‑8B‑Thinking	29.19%	15.84%	2.60%	15.88%
MOSS‑Music‑8B‑Instruct	32.99%	23.96%	4.62%	20.52%
Gemini‑3.1‑Pro‑Preview	26.25%	36.37%	6.00%	22.87%
MusicFlamingo	23.41%	38.98%	18.73%	27.04%
Qwen3‑Omni‑30B‑A3B‑Instruct	62.67%	20.48%	2.26%	28.47%
MiMo‑Audio‑7B‑Instruct	94.16%	23.34%	6.77%	41.42%
Kimi‑Audio‑7B‑Instruct	97.53%	25.83%	4.90%	42.75%
Step‑Audio‑R1	81.67%	48.03%	4.15%	44.62%
Audio‑Flamingo‑Next	94.93%	55.63%	12.47%	54.34%

MOSS-Music-8B-Thinking在这三个数据集上实现了最低的平均歌词语音识别错误率（15.88%），尤其在MIR-1K（带伴奏的中文卡拉OK）和Opencpop（清晰的普通话演唱）上表现突出。MOSS-Music还继承了MOSS-Audio强大的时间戳感知语音识别能力；详细的歌唱时间戳语音识别结果将很快补充。

和弦转录

MOSS-Music支持和弦转录，包括跟踪和弦随时间变化的带时间戳和弦转录。这可用于和声分析、伴奏参考、音乐教育及相关应用场景。详细的基准测试结果将很快补充。

快速开始

环境设置

我们建议使用Python 3.12和干净的Conda环境。以下命令足以满足本地推理需求。

可选：FlashAttention 2

如果您的 GPU 支持 FlashAttention 2，可以将最后的安装命令替换为：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

SGLang 服务

[!IMPORTANT] 为实现最佳生成质量并充分发挥模型性能，我们强烈建议使用 SGLang Serving 进行推理。

详见 moss_music_usage_guide.md 中的完整 SGLang 指南。

请先下载模型：

hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking

最短的设置步骤如下：

cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..

sglang serve \
  --model-path ./weights/MOSS-Music-8B-Instruct \
  --trust-remote-code

如果需要，你可以将 ./weights/MOSS-Music-8B-Instruct 替换为 ./weights/MOSS-Music-8B-Thinking。

如果你使用默认的 torch==2.9.1+cu128 运行环境，建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

Gradio 应用

通过以下命令启动 Gradio 演示：

python app.py

可以通过 MOSS_MUSIC_SERVER_NAME 和 MOSS_MUSIC_SERVER_PORT 环境变量覆盖服务器地址和端口，通过 MOSS_MUSIC_MODEL_ID 覆盖默认模型 ID。

许可证

MOSS-Music 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossmusic2026,
      title={MOSS-Music Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
      note={GitHub repository}
}

MOSS-Music

MOSS-Music logo

English | 简体中文

新闻

2026.05.01: 🎉🎉🎉 我们正式发布 MOSS-Music。
2026.05.01: 🎉🎉🎉 我们同步发布用于大规模音乐数据标注与处理的 MOSS-Music-Data-Pipeline。

引言

歌词语音识别与时间对齐转录：精准的歌唱语音识别，提供句子级和词语级时间戳，对伴奏音轨具有较强的鲁棒性。
音乐 captioning 与标签：对音乐的情绪、风格、乐器编排、制作手法及情感走向进行自然语言描述。
调式/速度/和弦推理：识别音乐的调式、节拍、重拍以及和弦进行，包括带时间戳的和弦转录。
结构分析：将歌曲分割为前奏/主歌/副歌/桥段/尾奏等部分，并对重复与对比关系进行推理。
乐器与人声识别：识别主要乐器及歌唱人声（独唱/合唱、性别、音域）。
音乐问答与长文本分析：基于完整音轨的开放式问答，在 Thinking 变体中包含思维链推理。

MOSS-Music overview

模型架构

DeepStack跨层特征注入

时间感知表示

在MOSS-Audio基础上，MOSS-Music通过以下方式进一步增强：

在由数据标注与处理 pipeline MOSS-Music-Data-Pipeline 生成的大型多样化音乐语料库上进行持续预训练，重点覆盖歌唱、歌词和完整歌曲；
在以音乐为中心的指令数据上进行监督微调（SFT），涵盖音乐描述生成、歌词语音识别、和弦/调式/结构分析以及长形式音乐问答；
为Thinking变体进行额外的推理调优。

已发布模型

模型	音频编码器	大语言模型底座	总参数量	Hugging Face	ModelScope
MOSS‑Music‑8B‑Instruct	MOSS-Audio-Encoder	Qwen3-8B	~9.1B
MOSS‑Music‑8B‑Thinking	MOSS-Audio-Encoder	Qwen3-8B	~9.1B

更小的（4B）版本及其他规格可能会后续推出，敬请期待！

音乐数据处理流程

评估

我们在一系列多样化的公开音乐理解基准上对 MOSS-Music 进行了评估。主要结果如下：

音乐问答与理解：MOSS-Music-8B-Instruct 在 8 个公开音乐问答基准（不包含三个 NSynth 音符识别任务）上的平均准确率达到 80.38，在我们当前的评估集合中，其性能在所有对比模型中排名第一。
音乐标题生成：在我们初步的 GPT-5.4-as-a-Judge 评估中，MOSS-Music 系列在两个标题生成基准上均处于领先地位。其中，MOSS-Music-8B-Thinking 在 MusicCaps 上达到 4.53，MOSS-Music-8B-Instruct 在 SDD 上达到 4.58。
歌声歌词语音识别：MOSS-Music-8B-Thinking 在 MUSDB18、MIR-1K 和 Opencpop 三个数据集上的平均歌词识别错误率（15.88% 平均词错误率/字符错误率）表现最佳，明显优于包括 Gemini-3.1-Pro-Preview、MusicFlamingo 和 Qwen3-Omni 在内的所有对比音频语言基线模型。详细的带时间戳的语音识别结果将在后续更新中发布。
和弦转录：MOSS-Music 支持和弦转录，包括用于和声分析、伴奏参考及相关下游应用的带时间戳和弦转录。详细的基准测试结果将在后续更新中发布。

音乐问答与理解（准确率↑）

模型	MMAU-music	MMAU-mini-music	MMAU-Pro-music	MMAR-music	MuChoMusic	Music-AVQA	NSynth (instrument)	NSynth (source)	NSynth (pitch)	GTZAN	Medley-Solos-DB	平均值
MOSS‑Music‑8B‑Instruct	79.33	80.78	71.02	59.70	89.39	76.78	86.55	61.07	86.94	93.59	92.42	80.38
Gemini‑3.1‑Pro	71.69	77.18	73.06	71.64	79.53	61.51	13.38	38.90	6.47	86.39	80.34	75.17
MOSS‑Music‑8B‑Thinking	74.09	77.78	67.98	50.25	82.90	68.90	56.17	57.48	77.83	84.78	87.42	74.26
MusicFlamingo	76.83	76.35	65.60	48.66	74.58	73.60	80.76	75.89	0.00	84.45	90.86	73.87
Audio‑Flamingo‑Next	72.39	72.07	61.64	45.27	75.62	62.94	86.40	66.73	0.05	77.68	91.47	69.89
MiMo‑Audio‑7B‑Instruct	66.36	72.97	66.50	45.77	75.40	57.05	25.01	1.49	4.86	65.67	93.81	67.94
Step‑Audio‑R1	66.46	75.08	62.34	50.75	72.62	57.98	13.75	15.87	2.39	73.67	82.45	67.67
Qwen3‑Omni	65.76	68.77	66.27	48.54	78.77	56.05	30.92	44.30	28.08	80.15	69.65	66.75
Kimi‑Audio‑7B‑Instruct	47.95	52.25	59.10	45.27	70.18	68.90	6.01	0.81	3.88	39.54	71.98	56.90

平均值是基于8个公开音乐问答基准计算得出： MMAU-music、MMAU-mini-music、MMAU-Pro-music、MMAR-music、 MuChoMusic、Music-AVQA、GTZAN 和 Medley-Solos-DB。

我们在主要平均值中排除了三个NSynth指标，因为它们专注于细粒度的孤立音符识别，包括乐器家族、原声/电子音源以及从短单音片段中精确的音高辨别。部分对比的音频语言模型并非明确针对这种音符级分类场景设计，因此我们将NSynth单独列出作为参考，而非纳入主要平均值计算。

音乐描述生成

整体描述质量：MOSS-Music系列在两个描述基准测试中均保持领先，其中MOSS-Music-8B-Thinking在MusicCaps上达到4.53分，MOSS-Music-8B-Instruct在SDD上达到4.58分。
更强的结构描述能力：MOSS-Music在structure / form / progression（结构/曲式/进行）维度上表现出最显著的优势，尤其在SDD数据集上。
乐器编配与场景语义的竞争基线：MusicFlamingo和Gemini-3.1-Pro在instrumentation/timbre（乐器编配/音色）方面仍具竞争力，而Gemini-3.1-Pro在scene / use case（场景/应用场景）维度上表现最佳。

MusicCaps

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	平均
MOSS‑Music‑8B‑Thinking	4.78	4.69	4.62	4.40	4.46	4.40	4.86	4.35	4.18	4.53
Gemini‑3.1‑Pro	4.70	4.60	4.48	4.68	4.18	4.18	3.86	4.40	4.72	4.42
MOSS‑Music‑8B‑Instruct	4.60	4.52	4.46	4.02	4.30	4.38	4.78	4.20	3.96	4.36
MusicFlamingo	4.80	4.36	4.50	4.64	3.94	4.08	3.58	4.30	3.72	4.21
Audio‑Flamingo‑Next	4.34	4.56	4.08	4.30	4.18	3.78	3.66	4.04	3.92	4.10
MiMo‑Audio‑7B‑Instruct	4.02	4.20	4.46	4.28	4.36	3.62	3.30	4.08	3.50	3.98
Step‑Audio‑R1	4.22	4.02	4.20	3.96	3.84	4.02	3.24	4.10	3.54	3.90
Qwen3‑Omni	4.58	4.50	4.26	3.62	3.64	3.48	2.98	4.18	4.42	3.96
Kimi‑Audio‑7B‑Instruct	3.98	3.92	4.32	3.88	4.48	3.28	2.72	3.72	3.24	3.73

歌曲描述数据集（SDD）

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	平均
MOSS‑Music‑8B‑Instruct	4.84	4.76	4.68	4.24	4.52	4.56	4.92	4.42	4.24	4.58
Gemini‑3.1‑Pro	4.72	4.64	4.52	4.72	4.22	4.24	3.94	4.46	4.82	4.48
MOSS‑Music‑8B‑Thinking	4.66	4.58	4.50	4.36	4.36	4.44	4.84	4.26	4.02	4.45
MusicFlamingo	4.82	4.40	4.52	4.70	3.98	4.14	3.66	4.36	3.80	4.26
Audio‑Flamingo‑Next	4.40	4.62	4.14	4.36	4.22	3.84	3.74	4.10	4.00	4.16
MiMo‑Audio‑7B‑Instruct	4.08	4.26	4.52	4.34	4.42	3.70	3.38	4.16	3.58	4.05
Step‑Audio‑R1	4.30	4.10	4.26	4.02	3.92	4.10	3.32	4.18	3.62	3.98
Qwen3‑Omni	4.62	4.54	4.30	3.68	3.70	3.56	3.06	4.24	4.50	4.02
Kimi‑Audio‑7B‑Instruct	4.04	3.98	4.38	3.96	4.54	3.36	2.80	3.80	3.32	3.80

歌词语音识别（WER/CER↓）

我们进一步在歌声歌词语音识别任务上对MOSS-Music进行了评估，涉及三个代表性基准测试集：

MUSDB18——带伴奏的英文流行歌曲，采用WER评分；
MIR-1K——带背景音乐的中文卡拉OK片段，采用CER评分；
Opencpop——清晰的普通话录音室演唱，采用CER评分。

Avg为三个数据集级别错误率的未加权平均值。

模型	MUSDB18 WER	MIR-1K CER	Opencpop CER	Avg
MOSS‑Music‑8B‑Thinking	29.19%	15.84%	2.60%	15.88%
MOSS‑Music‑8B‑Instruct	32.99%	23.96%	4.62%	20.52%
Gemini‑3.1‑Pro‑Preview	26.25%	36.37%	6.00%	22.87%
MusicFlamingo	23.41%	38.98%	18.73%	27.04%
Qwen3‑Omni‑30B‑A3B‑Instruct	62.67%	20.48%	2.26%	28.47%
MiMo‑Audio‑7B‑Instruct	94.16%	23.34%	6.77%	41.42%
Kimi‑Audio‑7B‑Instruct	97.53%	25.83%	4.90%	42.75%
Step‑Audio‑R1	81.67%	48.03%	4.15%	44.62%
Audio‑Flamingo‑Next	94.93%	55.63%	12.47%	54.34%

MOSS-Music-8B-Thinking在这三个数据集上实现了最低的平均歌词语音识别错误率（15.88%），尤其在MIR-1K（带伴奏的中文卡拉OK）和Opencpop（清晰的普通话演唱）上表现突出。MOSS-Music还继承了MOSS-Audio强大的时间戳感知语音识别能力；详细的歌唱时间戳语音识别结果将很快补充。

和弦转录

快速开始

环境设置

我们建议使用Python 3.12和干净的Conda环境。以下命令足以满足本地推理需求。

可选：FlashAttention 2

如果您的 GPU 支持 FlashAttention 2，可以将最后的安装命令替换为：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

SGLang 服务

[!IMPORTANT] 为实现最佳生成质量并充分发挥模型性能，我们强烈建议使用 SGLang Serving 进行推理。

详见 moss_music_usage_guide.md 中的完整 SGLang 指南。

请先下载模型：

hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking

最短的设置步骤如下：

cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..

sglang serve \
  --model-path ./weights/MOSS-Music-8B-Instruct \
  --trust-remote-code

如果需要，你可以将 ./weights/MOSS-Music-8B-Instruct 替换为 ./weights/MOSS-Music-8B-Thinking。

如果你使用默认的 torch==2.9.1+cu128 运行环境，建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

Gradio 应用

通过以下命令启动 Gradio 演示：

python app.py

可以通过 MOSS_MUSIC_SERVER_NAME 和 MOSS_MUSIC_SERVER_PORT 环境变量覆盖服务器地址和端口，通过 MOSS_MUSIC_MODEL_ID 覆盖默认模型 ID。

许可证

MOSS-Music 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossmusic2026,
      title={MOSS-Music Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
      note={GitHub repository}
}

MOSS-Music

新闻

目录

引言

模型架构

DeepStack跨层特征注入

时间感知表示

已发布模型

音乐数据处理流程

评估

音乐问答与理解（准确率↑）

音乐描述生成

MusicCaps

歌曲描述数据集（SDD）

歌词语音识别（WER/CER↓）

和弦转录

快速开始

环境设置

推荐设置

可选：FlashAttention 2

SGLang 服务

Gradio 应用

更多信息

许可证

引用

MOSS-Music

新闻

目录

引言

模型架构

DeepStack跨层特征注入

时间感知表示

已发布模型

音乐数据处理流程

评估

音乐问答与理解（准确率↑）

音乐描述生成

MusicCaps

歌曲描述数据集（SDD）

歌词语音识别（WER/CER↓）

和弦转录

快速开始

环境设置

推荐设置

可选：FlashAttention 2

SGLang 服务

Gradio 应用

更多信息

许可证

引用