GLM-TTS: 可控且富有情感表达的零样本语音合成

📜 论文 | 💻 GitHub 仓库 | 🛠️ Audio.Z.AI

📖 模型介绍

GLM-TTS 是一款基于大语言模型的高质量文本转语音（TTS）合成系统，支持零样本语音克隆和流式推理。该系统采用两阶段架构，结合了用于语音 token 生成的大语言模型（LLM）和用于波形合成的流匹配（Flow Matching）模型。

通过引入多奖励强化学习框架，GLM-TTS 显著提升了合成语音的表现力，相比传统 TTS 系统实现了更自然的情感控制。

核心特性

零样本语音克隆： 仅需 3-10 秒的提示音频，即可克隆任意说话人的声音。
强化学习增强的情感控制： 采用多奖励强化学习框架（GRPO）优化韵律与情感表达。
高品质合成： 生成语音质量媲美商业系统，且字符错误率（CER）更低。
音素级控制： 支持“音素+文本”混合输入，实现精准发音控制（如多音字处理）。
流式推理： 支持实时音频生成，适用于交互式应用场景。
双语支持： 针对中英文混合文本进行优化。

系统架构

GLM-TTS 采用两阶段设计：

第一阶段（LLM）： 基于 Llama 的模型将输入文本转换为语音 token 序列。
第二阶段（Flow Matching）： Flow 模型将 token 序列转换为高质量的 mel 频谱图，再通过声码器生成波形。

强化学习对齐

为解决情感表达平淡的问题，GLM-TTS 采用组相对策略优化（GRPO） 算法，并结合多种奖励函数（相似度、CER、情感、笑声）来对齐大语言模型的生成策略。

评估结果

在 seed-tts-eval 上进行评估。GLM-TTS_RL 实现了最低的字符错误率（CER），同时保持了较高的说话人相似度。

模型	CER ↓	SIM ↑	开源
Seed-TTS	1.12	79.6	🔒 否
CosyVoice2	1.38	75.7	👐 是
F5-TTS	1.53	76.0	👐 是
GLM-TTS（基础版）	1.03	76.1	👐 是
GLM-TTS_RL（我们的模型）	0.89	76.4	👐 是

快速开始

安装

git clone [https://github.com/zai-org/GLM-TTS.git](https://github.com/zai-org/GLM-TTS.git)
cd GLM-TTS
pip install -r requirements.txt

命令行推理

python glmtts_inference.py \
    --data=example_zh \
    --exp_name=_test \
    --use_cache \
    # --phoneme # Add this flag to enable phoneme capabilities.

Shell 脚本推理

bash glmtts_inference.sh

致谢与引用

感谢以下开源项目提供的支持：

CosyVoice - 提供前端处理框架和高质量声码器
Llama - 提供基础语言模型架构
Vocos - 提供高质量声码器
GRPO-Zero - 强化学习算法实现灵感

如果您发现GLM-TTS对您的研究有所帮助，请引用我们的技术报告：

@misc{cui2025glmttstechnicalreport,
      title={GLM-TTS Technical Report}, 
      author={Jiayan Cui and Zhihan Yang and Naihan Li and Jiankun Tian and Xingyu Ma and Yi Zhang and Guangyu Chen and Runxuan Yang and Yuqing Cheng and Yizhi Zhou and Guochen Yu and Xiaotao Gu and Jie Tang},
      year={2025},
      eprint={2512.14291},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2512.14291}, 
}
}