OpenMOSS/MOSS-Music-8B-Instruct
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MOSS-Music

MOSS-Music logo

English | 简体中文

MOSS-Music 是由 MOSI.AI、OpenMOSS 团队与 上海人工智能研究院 联合开发的开源音乐理解模型。该模型基于 MOSS-Audio 的音频骨干网络构建,通过专门的持续预训练与监督微调进一步聚焦于音乐领域,旨在实现音乐 captioning、歌词语音识别(ASR)、结构分析、和弦/调式/速度推理以及长音频音乐问答等功能。本次发布包含两个 8B 模型:MOSS-Music-8B-Instruct 和 MOSS-Music-8B-Thinking。其中 Instruct 版本针对音乐指令的直接跟随进行了优化,而 Thinking 版本则在音乐分析任务中具备更强的思维链推理能力。

新闻

  • 2026.05.01: 🎉🎉🎉 我们正式发布 MOSS-Music。
  • 2026.05.01: 🎉🎉🎉 我们同步发布用于大规模音乐数据标注与处理的 MOSS-Music-Data-Pipeline。

目录

  • 简介
  • 模型架构
    • DeepStack 跨层特征注入
    • 时间感知表征
  • 已发布模型
  • 音乐数据处理流程
  • 评估
  • 快速开始
    • 环境配置
    • SGLang 服务部署
    • Gradio 交互界面
  • 更多信息
  • 许可证
  • 引用

引言

音乐不仅仅是音频与歌词的简单叠加——要理解音乐,需要感知和声结构、节奏、音色、乐器编排、演奏细节以及歌词的文本内容,并对这些元素进行跨时间的综合推理。MOSS-Music 旨在将这些能力整合到单个模型中。

  • 歌词语音识别与时间对齐转录:精准的歌唱语音识别,提供句子级和单词级时间戳,对伴奏音轨具有强鲁棒性。
  • 音乐描述与标签生成:对音乐的情绪、 genre、乐器编排、制作风格和情感走向进行自然语言描述。
  • 调式/速度/和弦推理:识别音乐的调式、节拍、强拍以及和弦进行,包括带时间戳的和弦转录。
  • 结构分析:将歌曲分割为前奏/主歌/副歌/桥段/尾奏等部分,并对重复与对比关系进行推理。
  • 乐器与人声识别:识别主要乐器和歌唱人声(独唱/合唱、性别、音域)。
  • 音乐问答与长文本分析:基于整首歌曲的开放式问答,在 Thinking 变体中包含思维链推理。

MOSS-Music overview

模型架构

MOSS-Music 继承了 MOSS-Audio 的模块化设计,包含三个组件:音频编码器、模态适配器和大型语言模型。原始音频首先由MOSS-Audio-Encoder 编码为 12.5 Hz 的连续时间表征,然后通过适配器投影到语言模型的嵌入空间,最后由 LLM 用于自回归文本生成。

我们没有依赖现成的音频前端,而是从头开始训练专用编码器,以获得更鲁棒的声学表征、更紧密的时间对齐,以及在不同音乐风格、歌唱和非语音声学内容上更好的可扩展性。

DeepStack跨层特征注入

仅使用编码器的顶层特征往往会丢失底层韵律、瞬态事件和局部时频结构。为解决这一问题,我们在编码器和语言模型之间采用了受DeepStack启发的跨层注入模块:除编码器的最终层输出外,还选择早期和中间层的特征,对其进行独立投影后注入语言模型的早期层,从而保留从底层声学细节到高层语义抽象的多粒度信息。

这种设计特别适合音乐理解,因为它有助于保留节奏、音色、瞬态和乐器纹理——这些信息是单一高层表示无法完全捕捉的,但对于和弦识别、结构分析和细致的音乐描述至关重要。

时间感知表示

时间是音乐理解中的关键维度。为增强显式时间感知,我们在预训练阶段采用了时间标记插入策略:在音频帧表示之间按固定时间间隔插入显式时间标记,以指示时间位置。这种设计使模型能够在统一的文本生成框架中学习“何时发生了什么”,自然支持带时间戳的歌词语音识别(ASR)、节拍/重拍定位、段落边界检测以及长歌曲回顾性问答(QA)。

在MOSS-Audio骨干模型的基础上,MOSS-Music通过以下方式进一步增强:

  • 持续预训练:在由数据标注与处理流水线MOSS-Music-Data-Pipeline生成的大型、多样化音乐语料库上进行,重点覆盖歌唱、歌词和完整歌曲;
  • 监督微调(SFT):在以音乐为中心的指令数据上进行,涵盖音乐 captioning、歌词 ASR、和弦/调式/结构分析以及长文本音乐问答;
  • 针对 Thinking 变体的额外推理调优。

已发布模型

模型音频编码器LLM 主干模型总规模Hugging FaceModelScope
MOSS‑Music‑8B‑InstructMOSS-Audio-EncoderQwen3-8B~9.1BHugging FaceModelScope
MOSS‑Music‑8B‑ThinkingMOSS-Audio-EncoderQwen3-8B~9.1BHugging FaceModelScope

后续可能会推出更小(4B)的变体及其他规模的模型,敬请期待!

音乐数据处理流程

MOSS-Music 所使用的训练数据通过一套端到端流程生成,该流程涵盖从原始音频到聊天格式训练样本的完整过程。此流程已在 MOSS-Music-Data-Pipeline 开源,其中包含时长检测、音乐信息检索(MIR)特征提取、歌曲结构分段、歌词语音识别(ASR)、元数据清洗,以及利用 Qwen3-Omni、MusicFlamingo 等音频语言模型进行的基于音频语言模型(ALM)的标题/查询生成。

评估

我们在一系列多样化的公开音乐理解基准上对 MOSS-Music 进行了评估。主要结果如下:

  • 音乐问答与理解:MOSS-Music-8B-Instruct 在 8 个公开音乐问答基准(不含 NSynth 的三个音符识别任务)上的平均准确率达到 80.38,在我们当前的评估集合中,其性能在所有对比模型中排名第一。
  • 音乐标题生成:在我们初步的 GPT-5.4 作为评估者 的评测中,MOSS-Music 系列在两个标题生成基准上均处于领先地位。其中,MOSS-Music-8B-Thinking 在 MusicCaps 数据集上达到 4.53 分,MOSS-Music-8B-Instruct 在 SDD 数据集上达到 4.58 分。
  • 歌声歌词语音识别:MOSS-Music-8B-Thinking 在 MUSDB18、MIR-1K 和 Opencpop 三个数据集上的平均歌词识别错误率(WER/CER)表现最佳,达到 15.88%,明显优于包括 Gemini-3.1-Pro-Preview、MusicFlamingo 和 Qwen3-Omni 在内的所有对比音频语言基线模型。详细的带时间戳的语音识别结果将在后续更新中发布。
  • 和弦转录:MOSS-Music 支持和弦转录功能,包括用于和声分析、伴奏参考及相关下游应用场景的带时间戳和弦转录。详细的基准测试结果将在后续更新中发布。

音乐问答与理解(准确率↑)

模型MMAU-musicMMAU-mini-musicMMAU-Pro-musicMMAR-musicMuChoMusicMusic-AVQANSynth (instrument)NSynth (source)NSynth (pitch)GTZANMedley-Solos-DB平均值
MOSS‑Music‑8B‑Instruct79.3380.7871.0259.7089.3976.7886.5561.0786.9493.5992.4280.38
Gemini‑3.1‑Pro71.6977.1873.0671.6479.5361.5113.3838.906.4786.3980.3475.17
MOSS‑Music‑8B‑Thinking74.0977.7867.9850.2582.9068.9056.1757.4877.8384.7887.4274.26
MusicFlamingo76.8376.3565.6048.6674.5873.6080.7675.890.0084.4590.8673.87
Audio‑Flamingo‑Next72.3972.0761.6445.2775.6262.9486.4066.730.0577.6891.4769.89
MiMo‑Audio‑7B‑Instruct66.3672.9766.5045.7775.4057.0525.011.494.8665.6793.8167.94
Step‑Audio‑R166.4675.0862.3450.7572.6257.9813.7515.872.3973.6782.4567.67
Qwen3‑Omni65.7668.7766.2748.5478.7756.0530.9244.3028.0880.1569.6566.75
Kimi‑Audio‑7B‑Instruct47.9552.2559.1045.2770.1868.906.010.813.8839.5471.9856.90

平均值基于8个公开音乐问答基准计算得出: MMAU-music、MMAU-mini-music、MMAU-Pro-music、MMAR-music、 MuChoMusic、Music-AVQA、GTZAN和Medley-Solos-DB。

我们在主要平均值中排除了三个NSynth指标,因为它们侧重于细粒度的孤立音符识别,包括乐器家族、声学/电子音源以及从短单音片段中进行精确音高辨别。部分对比的音频语言模型并非明确针对这种音符级分类场景设计,因此我们将NSynth单独列出作为参考,而非纳入总体平均值计算。

音乐描述生成

我们进一步报告了在MusicCaps和歌曲描述数据集(SDD)上使用GPT-5.4作为评判器进行的初步音乐描述生成对比。评分采用1-5分制,涵盖9个维度:genre/style(风格/流派)、mood/affect(情绪/情感)、tempo/rhythm(速度/节奏)、instrumentation/timbre(乐器编配/音色)、vocals(人声)、melody/harmony(旋律/和声)、structure/form(结构/曲式)、production/audio quality(制作/音频质量)以及scene/use case(场景/应用场景)。

  • 整体描述质量:MOSS-Music系列在两个描述基准测试中均表现最强,其中MOSS-Music-8B-Thinking在MusicCaps上达到4.53分,MOSS-Music-8B-Instruct在SDD上达到4.58分。
  • 更出色的结构描述:MOSS-Music在structure / form / progression(结构/曲式/进行)维度上展现出最显著的优势,尤其在SDD数据集上。
  • 乐器编配和场景语义的竞争性基线:MusicFlamingo和Gemini-3.1-Pro在instrumentation/timbre(乐器编配/音色)方面仍具竞争力,而Gemini-3.1-Pro在scene / use case(场景/应用场景)维度上表现最强。

MusicCaps

模型GenreMoodTempoInstr.VocalsMelody/HarmonyStructureProductionScene平均分
MOSS‑Music‑8B‑Thinking4.784.694.624.404.464.404.864.354.184.53
Gemini‑3.1‑Pro4.704.604.484.684.184.183.864.404.724.42
MOSS‑Music‑8B‑Instruct4.604.524.464.024.304.384.784.203.964.36
MusicFlamingo4.804.364.504.643.944.083.584.303.724.21
Audio‑Flamingo‑Next4.344.564.084.304.183.783.664.043.924.10
MiMo‑Audio‑7B‑Instruct4.024.204.464.284.363.623.304.083.503.98
Step‑Audio‑R14.224.024.203.963.844.023.244.103.543.90
Qwen3‑Omni4.584.504.263.623.643.482.984.184.423.96
Kimi‑Audio‑7B‑Instruct3.983.924.323.884.483.282.723.723.243.73

歌曲描述数据集(SDD)

模型GenreMoodTempoInstr.VocalsMelody/HarmonyStructureProductionScene平均分
MOSS‑Music‑8B‑Instruct4.844.764.684.244.524.564.924.424.244.58
Gemini‑3.1‑Pro4.724.644.524.724.224.243.944.464.824.48
MOSS‑Music‑8B‑Thinking4.664.584.504.364.364.444.844.264.024.45
MusicFlamingo4.824.404.524.703.984.143.664.363.804.26
Audio‑Flamingo‑Next4.404.624.144.364.223.843.744.104.004.16
MiMo‑Audio‑7B‑Instruct4.084.264.524.344.423.703.384.163.584.05
Step‑Audio‑R14.304.104.264.023.924.103.324.183.623.98
Qwen3‑Omni4.624.544.303.683.703.563.064.244.504.02
Kimi‑Audio‑7B‑Instruct4.043.984.383.964.543.362.803.803.323.80

歌词语音识别(WER/CER↓)

我们进一步在歌声歌词语音识别任务上评估了MOSS-Music,涵盖三个代表性基准测试集:

  • MUSDB18——带伴奏的英文流行歌曲,采用WER评分;
  • MIR-1K——带背景音乐的中文卡拉OK片段,采用CER评分;
  • Opencpop——干净的普通话录音室演唱,采用CER评分。

Avg为三个数据集级别错误率的未加权平均值。

模型MUSDB18 WERMIR-1K CEROpencpop CERAvg
MOSS‑Music‑8B‑Thinking29.19%15.84%2.60%15.88%
MOSS‑Music‑8B‑Instruct32.99%23.96%4.62%20.52%
Gemini‑3.1‑Pro‑Preview26.25%36.37%6.00%22.87%
MusicFlamingo23.41%38.98%18.73%27.04%
Qwen3‑Omni‑30B‑A3B‑Instruct62.67%20.48%2.26%28.47%
MiMo‑Audio‑7B‑Instruct94.16%23.34%6.77%41.42%
Kimi‑Audio‑7B‑Instruct97.53%25.83%4.90%42.75%
Step‑Audio‑R181.67%48.03%4.15%44.62%
Audio‑Flamingo‑Next94.93%55.63%12.47%54.34%

MOSS-Music-8B-Thinking在这三个数据集上实现了最低的平均歌词语音识别错误率(15.88%),尤其在MIR-1K(带伴奏的中文卡拉OK)和Opencpop(干净的普通话演唱)上表现突出。MOSS-Music还继承了MOSS-Audio强大的时间戳感知语音识别能力;详细的歌唱时间戳语音识别结果将很快补充。

和弦转录

MOSS-Music支持和弦转录,包括跟踪随时间变化的和弦进行的带时间戳和弦转录。这可用于和声分析、伴奏参考、音乐教育及相关应用场景。详细的基准测试结果将很快补充。

快速开始

环境设置

我们推荐使用Python 3.12并配置干净的Conda环境。以下命令足以支持本地推理。

推荐设置

git clone https://github.com/OpenMOSS/MOSS-Music.git
cd MOSS-Music

conda create -n moss-music python=3.12 -y
conda activate moss-music

conda install -c conda-forge "ffmpeg=7" -y
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"

可选:FlashAttention 2

如果您的 GPU 支持 FlashAttention 2,可以将最后的安装命令替换为:

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

SGLang 服务

[!IMPORTANT] 为实现最佳生成质量并充分发挥模型性能,我们强烈建议使用 SGLang Serving 进行推理。

请参阅 moss_music_usage_guide.md 中的完整 SGLang 指南。

首先下载模型:

hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking

最短的设置步骤如下:

cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..

sglang serve \
  --model-path ./weights/MOSS-Music-8B-Instruct \
  --trust-remote-code

你可以根据需要将 ./weights/MOSS-Music-8B-Instruct 替换为 ./weights/MOSS-Music-8B-Thinking。

如果使用默认的 torch==2.9.1+cu128 运行环境,建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

Gradio 应用

通过以下命令启动 Gradio 演示:

python app.py

可以通过 MOSS_MUSIC_SERVER_NAME 和 MOSS_MUSIC_SERVER_PORT 环境变量覆盖服务器地址和端口,通过 MOSS_MUSIC_MODEL_ID 覆盖默认模型 ID。

更多信息

  • MOSI.AI:https://mosi.cn
  • OpenMOSS:https://www.open-moss.com
  • MOSS-Audio(主干模型):https://github.com/OpenMOSS/MOSS-Audio
  • MOSS-Music 数据处理流程:https://github.com/wx9songs/MOSS-Music-Data-Pipeline

许可证

MOSS-Music 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossmusic2026,
      title={MOSS-Music Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
      note={GitHub repository}
}