📜 论文 | 💻 GitHub 仓库 | 🛠️ Audio.Z.AI
GLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。
通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
GLM-TTS 采用两阶段设计:
为解决情感表达平淡的问题,GLM-TTS 采用组相对策略优化(GRPO) 算法,并结合多种奖励函数(相似度、CER、情感、笑声)来对齐大语言模型的生成策略。
在 seed-tts-eval 上进行评估。GLM-TTS_RL 实现了最低的字符错误率(CER),同时保持了较高的说话人相似度。
| 模型 | CER ↓ | SIM ↑ | 开源 |
|---|---|---|---|
| Seed-TTS | 1.12 | 79.6 | 🔒 否 |
| CosyVoice2 | 1.38 | 75.7 | 👐 是 |
| F5-TTS | 1.53 | 76.0 | 👐 是 |
| GLM-TTS(基础版) | 1.03 | 76.1 | 👐 是 |
| GLM-TTS_RL(我们的模型) | 0.89 | 76.4 | 👐 是 |
git clone [https://github.com/zai-org/GLM-TTS.git](https://github.com/zai-org/GLM-TTS.git)
cd GLM-TTS
pip install -r requirements.txtpython glmtts_inference.py \
--data=example_zh \
--exp_name=_test \
--use_cache \
# --phoneme # Add this flag to enable phoneme capabilities.bash glmtts_inference.sh感谢以下开源项目提供的支持:
如果您发现GLM-TTS对您的研究有所帮助,请引用我们的技术报告:
@misc{cui2025glmttstechnicalreport,
title={GLM-TTS Technical Report},
author={Jiayan Cui and Zhihan Yang and Naihan Li and Jiankun Tian and Xingyu Ma and Yi Zhang and Guangyu Chen and Runxuan Yang and Yuqing Cheng and Yizhi Zhou and Guochen Yu and Xiaotao Gu and Jie Tang},
year={2025},
eprint={2512.14291},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2512.14291},
}
}