ZAYA1-8B

ZAYA1-8B 是由 Zyphra 公司端到端训练的小型混合专家语言模型，拥有 7.6 亿活跃参数和 84 亿总参数。通过创新架构与预训练、后训练技术的融合，ZAYA1-8B 在同参数规模模型中树立了新的智能效率标准。

ZAYA1-8B 擅长复杂的长文本推理，尤其在数学和编码任务中表现突出。在这些领域，它的性能远超同量级模型，并且凭借高效的推理能力和小巧的模型体积，在测试时计算框架中能发挥显著作用。

由于总参数规模较小，ZAYA1-8B 也可部署在终端设备上，支持本地 LLM 应用。

更多信息请参阅我们的技术报告和博客。

本版本是 ZAYA1-8B 的后训练推理版本。预训练基础模型可在此处获取。

性能表现

ZAYA1-8B 性能极为强劲，尤其在高难度数学推理、逻辑推理和编码基准测试中表现卓越。在数学基准测试中，它可与参数规模数倍于自身的模型（包括前沿级推理模型）相抗衡。

ZAYA_ttc_paper_light_no_dsv32_lcb_no_o4_hmmt_feb_dsv32_925_claude45_base_labels_matched_gap_transparent

western_os_comparison_transparent_barchart

首先，我们将 ZAYA1-8B 与参数规模相近的 SOTA Qwen3 和 Qwen3.5 系列模型，以及最新发布的 Gemma4 模型进行对比；其次，将其与多种更大规模的开源权重模型进行比较。

与开源推理模型的同级对比

类别	基准测试	ZAYA1-8B (0.7B / 8.0B)	Qwen3-4B-Thinking-2507 (4.0B / 4.0B)	Qwen3.5-4B (4.0B / 4.0B)	Gemma-4-E4B-it (4.0B / 8.0B*)
数学	AIME'26	89.1	77.5	84.5	50.3
数学	HMMT Feb.'26	71.6	60.8	63.6	32.1
数学	IMO-AnswerBench	59.3	50.9	48.7	27.3
数学	APEX-shortlist	32.2	16.9	--	6.1
代码	LiveCodeBench-v6	65.8	54.2	--	54.2
知识	GPQA-Diamond	71.0	66.5	76.2	57.4
知识	MMLU-Pro	74.2	74.3	79.1	70.2
指令	IFEval	85.58	86.8	89.8	88.50
指令	IFBench	52.56	52.9	59.2	42.67
风格与对话	EQBench	72.95	79.6	79.5	80.15
风格与对话	Creative Writing v3	62.97	58.6	72.9	83.75
智能体	BFCL-v4	39.22	49.7	45.2	31.7
智能体	τ²	43.12	52.9	82.1	37.7

与更大规模开源推理模型的性能对比

模型	活跃参数	总参数	AIME'26	HMMT'26	LCB-v6	IFEval	GPQA-D	MMLU-Pro
ZAYA1-8B	0.7B	8B	89.1	71.6	63.8	85.8	71.0	74.2
Arcee-Trinity-Mini	3B	26B	59.6	36.9	33.3	62.0	46.8	70.6
N3-Nano-30B	3B	30B	90.1	75.5	64.6	92.8	75.1	78.9
OLMo-3.1-32B-Think	32B	32B	78.9	50.6	58.3	93.2	59.6	75.8
Qwen3-Next-80B-A3B-Think	3B	80B	90.2	79.3	67.8	88.5	76.7	82.6
Intellect-3	12B	106B	86.3	72.2	66.8	81.2	74.6	82.3
Mistral-Small-4-119B	6B	119B	86.4	70.6	57.9	84.0	77.2	81.6

所有数据均在Zyphra评估框架上运行。模型按总参数数量排序。

快速开始

前提条件

我们建议在全新的Python环境中安装以下库（已使用Python 3.12测试）。

要使用ZAYA1-8B，请从我们的vllm库分支安装zaya1-pr分支（该命令将触发从源代码完整构建vLLM）：

pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

如果您想在 transformers 中运行，请同时从我们的 transformers 库分支安装 zaya1 分支：

pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"

部署

要启动 vLLM 服务器，请运行以下命令：

vllm serve Zyphra/ZAYA1-8B --port 8010 \
   --mamba-cache-dtype float32 --dtype bfloat16 \
   --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml

对于并行部署，我们建议使用 DP 搭配 EP，因为上述分支不支持 CCA 的 TP。如果在 8 块 GPU 上运行，可设置额外参数 -dp 8 -ep 以 DP=EP=8 的方式运行。

在我们的评估及一般使用场景中，建议温度设为 1.0，top-p 设为 0.95，top-k 设为 -1。对于智能体和代码相关的使用场景，建议温度设为 0.6，top-p 设为 0.95，top-k 设为 -1。

服务器启动后，您可以使用 curl 工具查询模型，示例如下：

curl http://localhost:8010/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Zyphra/ZAYA1-8B",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello. How is it going?"}
        ]
    }'