智谱AI/GLM-5
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

GLM-5

👋 加入我们的 微信 或 Discord 社区。
📖 查阅 GLM-5 技术博客。
📍 在 Z.ai API 平台 使用 GLM-5 API 服务。
👉 一键访问 GLM-5。

简介

我们正式推出 GLM-5,旨在应对复杂系统工程和长时域智能体任务。模型规模扩展仍是提升通用人工智能(AGI)智能效率的关键途径之一。与 GLM-4.5 相比,GLM-5 的参数规模从 3550 亿(激活参数 320 亿)扩展至 7440 亿(激活参数 400 亿),预训练数据量从 23 万亿 tokens 增加到 28.5 万亿 tokens。GLM-5 还集成了深度求索稀疏注意力(DSA)技术,在保持长上下文能力的同时,大幅降低了部署成本。

强化学习旨在弥合预训练模型在能力与卓越表现之间的差距。然而,由于强化学习训练效率较低,将其大规模应用于大型语言模型(LLMs)面临挑战。为此,我们开发了 slime——一种新型异步强化学习基础设施,显著提升了训练吞吐量和效率,支持更精细的训练后迭代。凭借预训练和训练后优化的双重突破,GLM-5 在各类学术基准测试中较 GLM-4.7 实现显著提升,并在推理、代码生成和智能体任务上达到全球开源模型的领先水平,进一步缩小了与前沿闭源模型的差距。

基准测试结果

GLM-5GLM-4.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (xhigh)
HLE30.524.825.131.528.437.235.4
HLE (使用工具)50.442.840.851.843.4*45.8*45.5*
AIME 2026 I92.792.992.792.593.390.6-
HMMT Nov. 202596.993.590.291.191.793.097.1
IMOAnswerBench82.582.078.381.878.583.386.3
GPQA-Diamond86.085.782.487.687.091.992.4
SWE-bench Verified77.873.873.176.880.976.280.0
SWE-bench Multilingual73.366.770.273.077.565.072.0
Terminal-Bench 2.0 (Terminus 2)56.2 / 60.7 †41.039.350.859.354.254.0
Terminal-Bench 2.0 (Claude Code)56.2 / 61.1 †32.846.4-57.9--
CyberGym43.223.517.341.350.639.9-
BrowseComp62.052.051.460.637.037.8-
BrowseComp (使用上下文管理)75.967.567.674.967.859.265.8
BrowseComp-Zh72.766.665.062.362.466.876.1
τ²-Bench89.787.485.380.291.690.785.5
MCP-Atlas (Public Set)67.852.062.263.865.266.668.0
Tool-Decathlon38.023.835.227.843.536.446.3
Vending Bench 2$4,432.12$2,376.82$1,034.00$1,198.46$4,967.06$5,478.16$3,591.33

*:指其完整测试集的得分。

†:Terminal-Bench 2.0 的验证版本,修复了部分模糊指令。 更多评估细节见脚注。

脚注

  • 人类终极考试(HLE)及其他推理任务:我们在最大生成长度为 131,072 个 token 的条件下进行评估(temperature=1.0,top_p=0.95,max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;标有 * 的结果来自完整集合。我们使用 GPT-5.2(medium)作为评判模型。对于 HLE-with-tools,我们使用的最大上下文长度为 202,752 个 token。
  • SWE-bench 与 SWE-bench 多语言版:我们使用 OpenHands 工具套件结合定制的指令提示词运行 SWE-bench 套件。设置:temperature=0.7,top_p=0.95,max_new_tokens=16384,上下文窗口为 200K。
  • BrowserComp:在无上下文管理时,我们保留最近 5 轮对话的细节。在有上下文管理时,我们采用与 DeepSeek-v3.2 和 Kimi K2.5 相同的“全部丢弃”策略。
  • Terminal-Bench 2.0(Terminus 2):我们使用 Terminus 框架进行评估,参数设置为 timeout=2h,temperature=0.7,top_p=1.0,max_new_tokens=8192,上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB RAM。
  • Terminal-Bench 2.0(Claude Code):我们在 Claude Code 2.1.14(思考模式,默认努力程度)中进行评估,参数设置为 temperature=1.0,top_p=0.95,max_new_tokens=65536。由于生成速度的原因,我们移除了挂钟时间限制,但保留了每个任务的 CPU 和内存约束。分数为 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题,并在已验证的 Terminal-Bench 2.0 数据集(该数据集解决了指令模糊问题,参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)上报告结果。
  • CyberGym:我们在 Claude Code 2.1.18(思考模式,无网络工具)中进行评估,参数设置为(temperature=1.0,top_p=1.0,max_new_tokens=32000),每个任务超时时间为 250 分钟。结果为 1,507 个任务上单次运行的 Pass@1。
  • MCP-Atlas:所有模型均在思考模式下对 500 任务的公开子集进行评估,每个任务超时时间为 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。
  • τ²-bench:我们在零售和电信领域对提示词进行了小幅调整,以避免因用户过早终止而导致的失败。对于航空领域,我们应用了 Claude Opus 4.5 系统说明中提出的领域修复方案。
  • Vending Bench 2:由 Andon Labs 独立进行评估。

在本地部署 GLM-5

准备环境

vLLM、SGLang 和 xLLM 均支持 GLM-5 的本地部署。本文提供简易部署指南。

  • vLLM

    使用 Docker 部署:

    docker pull vllm/vllm-openai:nightly 

    或使用 pip 安装:

    pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

    然后升级 transformers:

    pip install git+https://github.com/huggingface/transformers.git
  • SGLang

    使用 Docker 部署:

    docker pull lmsysorg/sglang:glm5-hopper # 适用于 Hopper GPU
    docker pull lmsysorg/sglang:glm5-blackwell # 适用于 Blackwell GPU

部署

  • vLLM

    vllm serve zai-org/GLM-5-FP8 \
         --tensor-parallel-size 8 \
         --gpu-memory-utilization 0.85 \
         --speculative-config.method mtp \
         --speculative-config.num_speculative_tokens 1 \
         --tool-call-parser glm47 \
         --reasoning-parser glm45 \
         --enable-auto-tool-choice \
         --served-model-name glm-5-fp8

    更多详细信息,请参见 使用指南。

  • SGLang

    python3 -m sglang.launch_server \
      --model-path zai-org/GLM-5-FP8 \
      --tp-size 8 \
      --tool-call-parser glm47  \
      --reasoning-parser glm45 \
      --speculative-algorithm EAGLE \
      --speculative-num-steps 3 \
      --speculative-eagle-topk 1 \
      --speculative-num-draft-tokens 4 \
      --mem-fraction-static 0.85 \
      --served-model-name glm-5-fp8

    更多详细信息,请参见 SGLang 手册。

  • xLLM 及其他昇腾 NPU

    请参见此处的部署指南 链接。

引用

技术报告即将发布。