tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

AngelSlim

致力于打造更直观、全面且高效的大语言模型压缩工具包。

📣 GGUF   |    ✒️ Sherry 论文 (ACL 2026)   |    📖 文档   |    🤗 AngelSlim   |    💬 微信

model_scores
Hy-MT1.5-1.8B 翻译质量分数。来源:HY-MT1.5 技术报告

📣 最新动态

  • [26/04/29] 我们发布了 Hy-MT1.5-1.8B-2bit (574MB) 和 Hy-MT1.5-1.8B-1.25bit (440MB),这是支持 33 种语言的端侧翻译模型,提供权重和 GGUF 两种格式。
  • [26/02/09] 我们发布了 HY-1.8B-2Bit,这是一款 2 比特端侧大语言模型。
  • [26/01/13] 我们发布了 v0.3 版本。我们支持 Eagle3 在全尺度 LLMs/VLMs/Audio 模型上的训练与部署。同时,我们发布了 Sherry,这是一种硬件高效的 1.25 比特量化算法 [论文] | [代码]

更多详细信息,请参考 [AngelSlim] 和 [HY-MT]

🌟 Hy-MT1.5-1.8B-1.25bit 核心特性

  • 世界级翻译质量 Hy-MT1.5-1.8B-1.25bit 基于 Hy-MT1.5-1.8B 基础模型构建,该模型是腾讯混元团队通过整合面向机器翻译的预训练、有监督微调、策略蒸馏和强化学习的全流程多阶段训练 pipeline 开发的专业翻译模型。基础模型原生支持 33 种语言、5 种方言/少数民族语言以及 1,056 个翻译方向。尽管仅拥有 18 亿参数,其综合性能全面超越了规模更大的开源模型(如 Tower-Plus-72B、Qwen3-32B)和主流商业翻译 API(如 Microsoft Translator、豆包翻译)。详细信息请参阅 HY-MT1.5 技术报告。

  • Sherry:极致 1.25 位量化 本模型采用了 Sherry(已被 ACL 2026 接收)—— 一种硬件高效的三元量化框架。Sherry 引入了 3:4 细粒度稀疏性策略:每 4 个模型权重中,最重要的 3 个以 1 位({-1, +1})存储,剩余 1 个则置零。这使得 4 个权重仅需 5 位即可存储,实现了具有 2 的幂次对齐的有效 1.25 位宽度,将原本 3.3GB 的 FP16 模型压缩至仅 440MB,同时精度损失极小。

Sherry
Sherry 细粒度稀疏性:每 4 个权重中,最重要的 3 个以 1 位存储,剩余 1 个置零。

  • 适配多数手机的端侧部署 配合我们专为移动 CPU 设计的定制 STQ 内核,1.25 位模型实现了完美的 SIMD 指令集对齐。这意味着即使是内存有限的普通手机,也能流畅运行高质量的离线翻译。无需网络连接,您的数据也绝不会离开设备。

📈 翻译基准测试

不同模型尺寸在Flores-200汉外互译基准上的性能对比:

flores_model_size
不同模型尺寸在Flores-200汉外互译基准上的性能表现。

⚡ 速度演示

FP16(8倍速)与1.25-bit速度对比。演示设备:骁龙888,8GB内存:

fp16_vs_1.25bit
演示设备:骁龙888,8GB内存。

📱 演示

我们提供了一个即用型Android离线翻译演示。该演示具有后台取词模式,可在手机上的任何应用中运行——浏览电子邮件、网页或聊天消息时,无需切换应用即可获得即时翻译。无需网络,不收集数据,一次下载永久使用。

下载演示:

https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

翻译演示

app_demo
演示设备:骁龙865,8GB内存。

后台取词模式

demo2
演示设备:骁龙7+ Gen 2,16GB内存。

📥 下载链接

  • 1.25-bit模型权重:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
  • 1.25-bit模型GGUF:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF
  • 2-bit模型权重:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
  • 2-bit模型GGUF:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit-GGUF
  • 演示:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

📄 技术报告

  • HY-MT1.5 技术报告:https://arxiv.org/abs/2512.24092
  • Sherry 论文(ACL 2026):https://arxiv.org/abs/2601.07892
  • AngelSlim 技术报告:https://arxiv.org/abs/2602.21233

📝 许可证

本项目的代码根据 AngelSlim 许可证 开源。

🔗 引用

@misc{huang2026sherry,
      title={Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification}, 
      author={Hong Huang and Decheng Wu and Qiangqiang Hu and Guanghua Yu and Jinhai Yang and Jianchen Zhu and Xue Liu and Dapeng Wu},
      year={2026},
      eprint={2601.07892},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2601.07892}, 
}

@article{angelslim2026,
  title={AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression},
  author={Hunyuan AI Infra Team},
  journal={arXiv preprint arXiv:2602.21233},
  year={2026}
}

@misc{zheng2025hymt,
      title={HY-MT1.5 Technical Report}, 
      author={Mao Zheng and Zheng Li and Tao Chen and Mingyang Song and Di Wang},
      year={2025},
      eprint={2512.24092},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2512.24092}, 
}

💬 技术讨论

  • AngelSlim 正在持续迭代,新功能即将发布。如果您有任何问题或建议,请在 GitHub Issues 上提交 issue,或加入我们的 微信讨论群。