Z
Zyphra/ZAYA1-8B
模型介绍文件和版本分析
下载使用量0

ZAYA1-8B

ZAYA1-8B 是由 Zyphra 公司端到端训练的小型混合专家语言模型,拥有 7.6 亿活跃参数和 84 亿总参数。通过创新架构与预训练、后训练技术的融合,ZAYA1-8B 在同参数规模模型中树立了新的智能效率标准。

ZAYA1-8B 擅长复杂的长文本推理,尤其在数学和编码任务中表现突出。在这些领域,它的性能远超同量级模型,并且凭借高效的推理能力和小巧的模型体积,在测试时计算框架中能发挥显著作用。

由于总参数规模较小,ZAYA1-8B 也可部署在终端设备上,支持本地 LLM 应用。

更多信息请参阅我们的技术报告和博客。

本版本是 ZAYA1-8B 的后训练推理版本。预训练基础模型可在此处获取。

性能表现

ZAYA1-8B 性能极为强劲,尤其在高难度数学推理、逻辑推理和编码基准测试中表现卓越。在数学基准测试中,它可与参数规模数倍于自身的模型(包括前沿级推理模型)相抗衡。

ZAYA_ttc_paper_light_no_dsv32_lcb_no_o4_hmmt_feb_dsv32_925_claude45_base_labels_matched_gap_transparent

western_os_comparison_transparent_barchart

首先,我们将 ZAYA1-8B 与参数规模相近的 SOTA Qwen3 和 Qwen3.5 系列模型,以及最新发布的 Gemma4 模型进行对比;其次,将其与多种更大规模的开源权重模型进行比较。

与开源推理模型的同级对比

类别基准测试ZAYA1-8B
(0.7B / 8.0B)
Qwen3-4B-Thinking-2507
(4.0B / 4.0B)
Qwen3.5-4B
(4.0B / 4.0B)
Gemma-4-E4B-it
(4.0B / 8.0B*)
数学AIME'2689.177.584.550.3
数学HMMT Feb.'2671.660.863.632.1
数学IMO-AnswerBench59.350.948.727.3
数学APEX-shortlist32.216.9--6.1
代码LiveCodeBench-v665.854.2--54.2
知识GPQA-Diamond71.066.576.257.4
知识MMLU-Pro74.274.379.170.2
指令IFEval85.5886.889.888.50
指令IFBench52.5652.959.242.67
风格与对话EQBench72.9579.679.580.15
风格与对话Creative Writing v362.9758.672.983.75
智能体BFCL-v439.2249.745.231.7
智能体τ²43.1252.982.137.7

与更大规模开源推理模型的性能对比

模型活跃参数总参数AIME'26HMMT'26LCB-v6IFEvalGPQA-DMMLU-Pro
ZAYA1-8B0.7B8B89.171.663.885.871.074.2
Arcee-Trinity-Mini3B26B59.636.933.362.046.870.6
N3-Nano-30B3B30B90.175.564.692.875.178.9
OLMo-3.1-32B-Think32B32B78.950.658.393.259.675.8
Qwen3-Next-80B-A3B-Think3B80B90.279.367.888.576.782.6
Intellect-312B106B86.372.266.881.274.682.3
Mistral-Small-4-119B6B119B86.470.657.984.077.281.6

所有数据均在Zyphra评估框架上运行。模型按总参数数量排序。

快速开始

前提条件

我们建议在全新的Python环境中安装以下库(已使用Python 3.12测试)。

要使用ZAYA1-8B,请从我们的vllm库分支安装zaya1-pr分支(该命令将触发从源代码完整构建vLLM):

pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

如果您想在 transformers 中运行,请同时从我们的 transformers 库分支安装 zaya1 分支:

pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"

部署

要启动 vLLM 服务器,请运行以下命令:

vllm serve Zyphra/ZAYA1-8B --port 8010 \
   --mamba-cache-dtype float32 --dtype bfloat16 \
   --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml

对于并行部署,我们建议使用 DP 搭配 EP,因为上述分支不支持 CCA 的 TP。如果在 8 块 GPU 上运行,可设置额外参数 -dp 8 -ep 以 DP=EP=8 的方式运行。

在我们的评估及一般使用场景中,建议温度设为 1.0,top-p 设为 0.95,top-k 设为 -1。对于智能体和代码相关的使用场景,建议温度设为 0.6,top-p 设为 0.95,top-k 设为 -1。

服务器启动后,您可以使用 curl 工具查询模型,示例如下:

curl http://localhost:8010/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Zyphra/ZAYA1-8B",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello. How is it going?"}
        ]
    }'