
Supertonic 是一款用于本地推理的轻量级文本转语音系统。它完全依靠 ONNX Runtime 在您的设备上运行,语音合成过程无需调用云端服务。
Supertonic 3 将开源权重支持的语言数量从 5 种扩展到了 31 种,提升了朗读稳定性,并减少了重复或跳读错误。
安装 Python SDK 即可立即生成语音。首次运行时,SDK 会从 Hugging Face 下载模型资源。
pip install supertonicfrom supertonic import TTS
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")<laugh>、<breath> 和 <sigh> 等简单标签。开源权重包包含固定的预设语音风格,可直接用于本地推理。如果您想了解 Supertonic 3 在零样本自定义语音风格下的表现,请访问 音频样本演示,在多个使用场景中对比参考音频和生成语音。要根据参考音频创建您自己的 Supertonic 3 语音风格 JSON,请使用 Supertonic Voice Builder;购买的 Voice Builder 风格包含可下载的 Supertonic 2 和 Supertonic 3 嵌入向量。
以下是音频样本演示中的几组参考/生成语音对:
客服中心,英语
文本:Good morning, thank you for calling. How can I help you today?
| 参考语音 | Supertonic 3 输出 |
|---|---|
角色语音,日语
文本:ふふっ、退屈してたところなの。ちょうどいい遊び相手、見つけたかも♪
| 参考语音 | Supertonic 3 输出 |
|---|---|
老年角色语音,韩语
文本:혼자 떠나기엔 길이 험하구나. 이 낡은 검을 가져가거라. 언젠가 어둠이 네 이름을 부르더라도, 부디 빛을 잊지 말거라.
| 参考语音 | Supertonic 3 输出 |
|---|---|
有声书,英语
文本:I was not afraid of silence. I had lived with it long enough to know that, sometimes, it speaks more honestly than people do.
| 参考语音 | Supertonic 3 输出 |
|---|---|
有声书,日语
文本:その朝、ロンドンの霧はいつになく低く垂れこめていた。私はただの訪問者だと思っていたが、ホームズの目はすでに別の結論にたどり着いていた。
| 参考语音 | Supertonic 3 输出 |
|---|---|
新闻,英语
文本:Here’s a story worth paying attention to. Supertone has released Supertonic 3, its on-device TTS model. This version expands support to thirty-one languages and improves reading stability.
| 参考语音 | Supertonic 3 输出 |
|---|---|
Supertonic 3 专为实用的设备端推理而设计:小巧到可在本地运行,同时性能仍能与规模大得多的开源 TTS 系统相抗衡。
在测试的各种语言中,Supertonic 3 的 WER/CER 指标均处于与 VoxCPM2 等规模更大的开源 TTS 模型相当的竞争区间,同时仍保持着轻量级设备端部署的优势。标有星号的语言使用 CER 指标,其他语言使用 WER 指标。
与 Supertonic 2 相比,Supertonic 3 减少了重复和跳读错误,在共享语言集上提升了说话人相似度,并将语言覆盖范围从 5 种扩展到了 31 种。
Supertonic 3 在 CPU 上运行速度很快,即使与在 A100 GPU 上测试的更大模型基准相比也是如此,并且内存占用显著更低。它无需 GPU 支持,这使得本地部署、浏览器部署和边缘部署变得更加容易。
Supertonic 3 的公开 ONNX 资产总参数约为 9900 万,远小于 7 亿至 20 亿参数级别的开源 TTS 系统。更小的模型尺寸在下载大小、启动时间和设备端推理方面具有实际优势。
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|---|---|---|---|---|---|---|
en | 英语 | ko | 韩语 | ja | 日语 | ar | 阿拉伯语 |
bg | 保加利亚语 | cs | 捷克语 | da | 丹麦语 | de | 德语 |
el | 希腊语 | es | 西班牙语 | et | 爱沙尼亚语 | fi | 芬兰语 |
fr | 法语 | hi | 印地语 | hr | 克罗地亚语 | hu | 匈牙利语 |
id | 印尼语 | it | 意大利语 | lt | 立陶宛语 | lv | 拉脱维亚语 |
nl | 荷兰语 | pl | 波兰语 | pt | 葡萄牙语 | ro | 罗马尼亚语 |
ru | 俄语 | sk | 斯洛伐克语 | sl | 斯洛文尼亚语 | sv | 瑞典语 |
tr | 土耳其语 | uk | 乌克兰语 | vi | 越南语 |
本项目的示例代码基于 MIT 许可协议发布。详情请参见 GitHub 仓库。
随附模型基于 OpenRAIL-M 许可协议发布。详情请参见本仓库中的 LICENSE 文件。
本模型使用 PyTorch 进行训练,PyTorch 基于 BSD 3-Clause 许可协议授权,但未随本项目一同再分发。详情请参见 PyTorch 许可协议。
版权所有 (c) 2026 Supertone Inc.