ZAYA1-8B 是由 Zyphra 公司端到端训练的小型混合专家语言模型,拥有 7.6 亿活跃参数和 84 亿总参数。通过创新架构与预训练、后训练技术的融合,ZAYA1-8B 在同参数规模模型中树立了新的智能效率标准。
ZAYA1-8B 擅长复杂的长文本推理,尤其在数学和编码任务中表现突出。在这些领域,它的性能远超同量级模型,并且凭借高效的推理能力和小巧的模型体积,在测试时计算框架中能发挥显著作用。
由于总参数规模较小,ZAYA1-8B 也可部署在终端设备上,支持本地 LLM 应用。
本版本是 ZAYA1-8B 的后训练推理版本。预训练基础模型可在此处获取。
ZAYA1-8B 性能极为强劲,尤其在高难度数学推理、逻辑推理和编码基准测试中表现卓越。在数学基准测试中,它可与参数规模数倍于自身的模型(包括前沿级推理模型)相抗衡。


首先,我们将 ZAYA1-8B 与参数规模相近的 SOTA Qwen3 和 Qwen3.5 系列模型,以及最新发布的 Gemma4 模型进行对比;其次,将其与多种更大规模的开源权重模型进行比较。
| 类别 | 基准测试 | ZAYA1-8B (0.7B / 8.0B) | Qwen3-4B-Thinking-2507 (4.0B / 4.0B) | Qwen3.5-4B (4.0B / 4.0B) | Gemma-4-E4B-it (4.0B / 8.0B*) |
|---|---|---|---|---|---|
| 数学 | AIME'26 | 89.1 | 77.5 | 84.5 | 50.3 |
| 数学 | HMMT Feb.'26 | 71.6 | 60.8 | 63.6 | 32.1 |
| 数学 | IMO-AnswerBench | 59.3 | 50.9 | 48.7 | 27.3 |
| 数学 | APEX-shortlist | 32.2 | 16.9 | -- | 6.1 |
| 代码 | LiveCodeBench-v6 | 65.8 | 54.2 | -- | 54.2 |
| 知识 | GPQA-Diamond | 71.0 | 66.5 | 76.2 | 57.4 |
| 知识 | MMLU-Pro | 74.2 | 74.3 | 79.1 | 70.2 |
| 指令 | IFEval | 85.58 | 86.8 | 89.8 | 88.50 |
| 指令 | IFBench | 52.56 | 52.9 | 59.2 | 42.67 |
| 风格与对话 | EQBench | 72.95 | 79.6 | 79.5 | 80.15 |
| 风格与对话 | Creative Writing v3 | 62.97 | 58.6 | 72.9 | 83.75 |
| 智能体 | BFCL-v4 | 39.22 | 49.7 | 45.2 | 31.7 |
| 智能体 | τ² | 43.12 | 52.9 | 82.1 | 37.7 |
| 模型 | 活跃参数 | 总参数 | AIME'26 | HMMT'26 | LCB-v6 | IFEval | GPQA-D | MMLU-Pro |
|---|---|---|---|---|---|---|---|---|
| ZAYA1-8B | 0.7B | 8B | 89.1 | 71.6 | 63.8 | 85.8 | 71.0 | 74.2 |
| Arcee-Trinity-Mini | 3B | 26B | 59.6 | 36.9 | 33.3 | 62.0 | 46.8 | 70.6 |
| N3-Nano-30B | 3B | 30B | 90.1 | 75.5 | 64.6 | 92.8 | 75.1 | 78.9 |
| OLMo-3.1-32B-Think | 32B | 32B | 78.9 | 50.6 | 58.3 | 93.2 | 59.6 | 75.8 |
| Qwen3-Next-80B-A3B-Think | 3B | 80B | 90.2 | 79.3 | 67.8 | 88.5 | 76.7 | 82.6 |
| Intellect-3 | 12B | 106B | 86.3 | 72.2 | 66.8 | 81.2 | 74.6 | 82.3 |
| Mistral-Small-4-119B | 6B | 119B | 86.4 | 70.6 | 57.9 | 84.0 | 77.2 | 81.6 |
所有数据均在Zyphra评估框架上运行。模型按总参数数量排序。
我们建议在全新的Python环境中安装以下库(已使用Python 3.12测试)。
要使用ZAYA1-8B,请从我们的vllm库分支安装zaya1-pr分支(该命令将触发从源代码完整构建vLLM):
pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"如果您想在 transformers 中运行,请同时从我们的 transformers 库分支安装 zaya1 分支:
pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"要启动 vLLM 服务器,请运行以下命令:
vllm serve Zyphra/ZAYA1-8B --port 8010 \
--mamba-cache-dtype float32 --dtype bfloat16 \
--reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml对于并行部署,我们建议使用 DP 搭配 EP,因为上述分支不支持 CCA 的 TP。如果在 8 块 GPU 上运行,可设置额外参数 -dp 8 -ep 以 DP=EP=8 的方式运行。
在我们的评估及一般使用场景中,建议温度设为 1.0,top-p 设为 0.95,top-k 设为 -1。对于智能体和代码相关的使用场景,建议温度设为 0.6,top-p 设为 0.95,top-k 设为 -1。
服务器启动后,您可以使用 curl 工具查询模型,示例如下:
curl http://localhost:8010/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Zyphra/ZAYA1-8B",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello. How is it going?"}
]
}'