tencent_hunyuan/Hy3-preview
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

中文 | English



License    HuggingFace    ModelScope    cnb.cool    GitCode

🖥️ 官方网站  |   💬 GitHub


目录

  • 模型介绍
  • 核心亮点
  • 评测结果
    • STEM与推理能力
    • 上下文学习与指令遵循
    • 代码生成与智能体
  • 最新动态
  • 模型链接
  • 快速开始
  • 部署指南
    • vLLM部署
    • SGLang部署
  • 训练详情
  • 量化方案
  • 许可协议
  • 联系我们

模型介绍

Hy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。

属性数值
模型架构混合专家(Mixture-of-Experts, MoE)
总参数量2950亿
激活参数量210亿
MTP层参数量38亿
模型层数(不含MTP层)80
MTP层数1
注意力头数64(GQA,8个KV头,头维度128)
隐藏层维度4096
中间层维度13312
上下文长度256K
词表大小120832
专家数量192个专家,每次激活前8个
支持精度BF16

亮点

  • STEM 与推理——复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等具有挑战性的 STEM 基准测试中表现优异,并在清华大学求真书院数学博士资格考试(2026 年春季)和全国中学生生物学竞赛(CHSBO 2025)中取得了出色成绩,展现出卓越的通用推理能力。

  • 上下文学习与指令遵循——现实世界的任务需要解析杂乱、冗长的上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life,以创新方式衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力方面均实现了显著提升。

  • 代码与智能体——代码生成和智能体能力的提升最为显著。通过重构的强化学习(RL)基础设施和更大规模的训练任务,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的分数。

基准测试结果

预训练模型性能

类别基准测试(指标)提示次数Kimi-K2 BASEDeepSeek-V3 BASEGLM-4.5 BASEHy3 preview-Base
激活参数数量-320亿370亿320亿210亿
总参数数量-10430亿6710亿3550亿2950亿
英语MMLU5-shot88.2487.6887.7387.42
MMLU-Pro5-shot65.9863.9863.6765.76
MMLU-Redux5-shot87.1886.8186.5686.86
ARC-Challenge0-shot96.6694.6596.3295.99
DROP5-shot86.4086.5082.9085.50
PIQA4-shot84.9384.2284.7184.39
SuperGPQA5-shot51.1046.1749.6451.60
SimpleQA5-shot34.3726.1529.2626.47
代码MBPP-plus3-shot81.3575.4778.0578.71
CRUXEval-I3-shot68.0167.7968.5171.19
CRUXEval-O3-shot69.6271.0067.7568.38
LiveCodeBench-v61-shot30.8629.3127.4334.86
数学GSM8K4-shot93.4688.1590.0695.37
MATH4-shot71.2059.3761.0076.28
CMath4-shot90.8385.5089.3391.17
中文C-Eval5-shot91.5190.3585.8489.80
CMMLU5-shot90.7287.9086.4689.61
Chinese-simpleQA5-shot74.5868.7268.4969.73
多语言MMMLU5-shot77.6379.5479.2680.15
INCLUDE5-shot75.6677.8676.2778.64

指令模型性能

科学、技术、工程与数学(STEM)及推理能力

复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad 和 IMOAnswerBench 等挑战性 STEM 基准测试中表现出色。它在清华大学求真书院数学博士资格考试(2026年春季)和中国高中生物学奥林匹克竞赛(CHSBO 2025)中也取得了优异成绩,展现出高度的通用推理能力。

STEM & Reasoning benchmarks

上下文学习与指令遵循能力

现实世界的任务要求模型具备解析冗长、杂乱上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life,以创新方式衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力两方面均取得了显著提升。

Context Learning & Instruction Following benchmarks

代码与智能体能力

代码生成和智能体能力的提升最为显著。通过重构的强化学习(RL)基础设施和更大规模的训练任务,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的成绩。

Agent benchmarks overview

代码能力关乎模型能否在开发环境中执行,搜索能力则关乎模型能否从开放网络中查找并整合信息。这两者对于 OpenClaw 等复杂智能体场景都至关重要。Hy3 preview 在 ClawEval 和 WildClawBench 上得分优异,表明其智能体能力已具备实际应用价值。

Claw Agent benchmarks

除了公开基准测试外,我们还构建了内部评估集,以测试模型在真实开发场景中的表现。在 Hy-Backend(聚焦后端任务)、Hy-Vibe Bench(真实用户开发工作流)和 Hy-SWE Max 上,Hy3 preview 与其他开源模型相比,成绩具有竞争力。

Internal benchmarks

新闻动态

  • [2026-04-23] 🔥 我们在 Hugging Face、ModelScope 和 GitCode 上开源了 Hy3 preview 模型权重。

模型链接

模型名称描述Hugging FaceModelScopeGitCode
Hy3 preview指令微调模型🤗 模型模型模型
Hy3 preview-Base预训练基础模型🤗 模型模型模型

快速开始

首先使用 vLLM 或 SGLang 部署 Hy3 preview,然后调用兼容 OpenAI 的 API:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="tencent/Hy3-preview",
    messages=[
        {"role": "user", "content": "Hello! Can you briefly introduce yourself?"},
    ],
    temperature=0.9,
    top_p=1.0,
    # reasoning_effort: "no_think" (default, direct response), "low", "high" (deep chain-of-thought)
    extra_body={"chat_template_kwargs": {"reasoning_effort": "no_think"}},
)
print(response.choices[0].message.content)

推荐参数:temperature=0.9,top_p=1.0。

推理模式:对于复杂任务(数学、编码、推理),请将 reasoning_effort 设置为 "high";若需直接响应,则设置为 "no_think"。

有关如何启动 API 服务器的说明,请参见下文的 部署 部分。

部署

Hy3-preview 共计 2950 亿参数。若要在 8 块 GPU 上部署该模型,建议使用 H20-3e 或其他大内存容量的 GPU。

vLLM

从源码构建 vLLM:

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto

启用 MTP 启动 vLLM 服务器:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

SGLang

从源代码构建 SGLang:

git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"

启用 MTP 启动 SGLang 服务器:

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \
  --tp 8 \
  --tool-call-parser hunyuan \
  --reasoning-parser hunyuan \
  --speculative-num-steps 1 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \
  --speculative-algorithm EAGLE \
  --served-model-name hy3-preview

训练

Hy3 preview 提供完整的模型训练流程,支持全量微调与 LoRA 微调,并集成了 DeepSpeed ZeRO 配置与 LLaMA-Factory。

详细训练文档请参考:训练指南

量化

我们提供 AngelSlim——一款更易用、全面且高效的大模型压缩工具包。AngelSlim 支持面向大规模多模态模型的完整压缩工具集,包括常用量化算法、低位量化及投机采样。

许可协议

Hy3 preview 根据 腾讯混元社区许可协议 发布。详情请参见 LICENSE。

联系我们

如您希望向研发及产品团队留言,欢迎与我们联系。您也可以通过邮件与我们取得联系:

📧 hunyuan_opensource@tencent.com


Hy3 preview 由腾讯混元团队研发。