Supertonic 3 | 闪电般快速、设备端运行、精准的文本转语音

Supertonic 3 Preview

Supertonic 是一款用于本地推理的轻量级文本转语音系统。它完全依靠 ONNX Runtime 在您的设备上运行，语音合成过程无需调用云端服务。

Supertonic 3 将开源权重支持的语言数量从 5 种扩展到了 31 种，提升了朗读稳定性，并减少了重复或跳读错误。

快速开始

安装 Python SDK 即可立即生成语音。首次运行时，SDK 会从 Hugging Face 下载模型资源。

pip install supertonic

from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")

Supertonic 3 的新特性

31 种语言：在支持 5 种语言的 Supertonic 2 版本基础上进行了扩展。
更稳定的朗读效果：减少了重复和跳读错误，尤其在处理短文本和长文本时表现更优。
更高的说话人相似度：与 Supertonic 2 相比，在共享语言集中的相似度有所提升。
表情标签：支持 <laugh>、<breath> 和 <sigh> 等简单标签。

自定义语音和音频样本

开源权重包包含固定的预设语音风格，可直接用于本地推理。如果您想了解 Supertonic 3 在零样本自定义语音风格下的表现，请访问音频样本演示，在多个使用场景中对比参考音频和生成语音。要根据参考音频创建您自己的 Supertonic 3 语音风格 JSON，请使用 Supertonic Voice Builder；购买的 Voice Builder 风格包含可下载的 Supertonic 2 和 Supertonic 3 嵌入向量。

以下是音频样本演示中的几组参考/生成语音对：

客服中心，英语
文本：Good morning, thank you for calling. How can I help you today?

参考语音	Supertonic 3 输出

角色语音，日语
文本：ふふっ、退屈してたところなの。ちょうどいい遊び相手、見つけたかも♪

参考语音	Supertonic 3 输出

老年角色语音，韩语
文本：혼자 떠나기엔 길이 험하구나. 이 낡은 검을 가져가거라. 언젠가 어둠이 네 이름을 부르더라도, 부디 빛을 잊지 말거라.

参考语音	Supertonic 3 输出

有声书，英语
文本：I was not afraid of silence. I had lived with it long enough to know that, sometimes, it speaks more honestly than people do.

参考语音	Supertonic 3 输出

有声书，日语
文本：その朝、ロンドンの霧はいつになく低く垂れこめていた。私はただの訪問者だと思っていたが、ホームズの目はすでに別の結論にたどり着いていた。

参考语音	Supertonic 3 输出

新闻，英语
文本：Here’s a story worth paying attention to. Supertone has released Supertonic 3, its on-device TTS model. This version expands support to thirty-one languages and improves reading stability.

参考语音	Supertonic 3 输出

性能亮点

Supertonic 3 专为实用的设备端推理而设计：小巧到可在本地运行，同时性能仍能与规模大得多的开源 TTS 系统相抗衡。

朗读准确率

Supertonic 3 reading accuracy compared with measured model ranges and VoxCPM2

在测试的各种语言中，Supertonic 3 的 WER/CER 指标均处于与 VoxCPM2 等规模更大的开源 TTS 模型相当的竞争区间，同时仍保持着轻量级设备端部署的优势。标有星号的语言使用 CER 指标，其他语言使用 WER 指标。

Supertonic 2 与 Supertonic 3 对比

Supertonic 2 and Supertonic 3 comparison

与 Supertonic 2 相比，Supertonic 3 减少了重复和跳读错误，在共享语言集上提升了说话人相似度，并将语言覆盖范围从 5 种扩展到了 31 种。

运行时占用

Supertonic CPU runtime compared with GPU baselines

Supertonic 3 在 CPU 上运行速度很快，即使与在 A100 GPU 上测试的更大模型基准相比也是如此，并且内存占用显著更低。它无需 GPU 支持，这使得本地部署、浏览器部署和边缘部署变得更加容易。

模型大小

Model size comparison

Supertonic 3 的公开 ONNX 资产总参数约为 9900 万，远小于 7 亿至 20 亿参数级别的开源 TTS 系统。更小的模型尺寸在下载大小、启动时间和设备端推理方面具有实际优势。

支持的语言

代码	语言	代码	语言	代码	语言	代码	语言
`en`	英语	`ko`	韩语	`ja`	日语	`ar`	阿拉伯语
`bg`	保加利亚语	`cs`	捷克语	`da`	丹麦语	`de`	德语
`el`	希腊语	`es`	西班牙语	`et`	爱沙尼亚语	`fi`	芬兰语
`fr`	法语	`hi`	印地语	`hr`	克罗地亚语	`hu`	匈牙利语
`id`	印尼语	`it`	意大利语	`lt`	立陶宛语	`lv`	拉脱维亚语
`nl`	荷兰语	`pl`	波兰语	`pt`	葡萄牙语	`ro`	罗马尼亚语
`ru`	俄语	`sk`	斯洛伐克语	`sl`	斯洛文尼亚语	`sv`	瑞典语
`tr`	土耳其语	`uk`	乌克兰语	`vi`	越南语

许可协议

本项目的示例代码基于 MIT 许可协议发布。详情请参见 GitHub 仓库。

随附模型基于 OpenRAIL-M 许可协议发布。详情请参见本仓库中的 LICENSE 文件。

本模型使用 PyTorch 进行训练，PyTorch 基于 BSD 3-Clause 许可协议授权，但未随本项目一同再分发。详情请参见 PyTorch 许可协议。