DeepSeek-V3.2-Exp

简介

我们很高兴地宣布DeepSeek-V3.2-Exp的正式发布，这是我们模型的一个实验版本。作为迈向我们下一代架构的中间步骤，V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention——一种稀疏注意力机制，旨在探索和验证长文本场景下训练与推理效率的优化。

此次实验版本的发布，体现了我们在更高效Transformer架构方面持续的研究努力，尤其侧重于提升处理长文本序列时的计算效率。

DeepSeek Sparse Attention（DSA）首次实现了细粒度的稀疏注意力，在保持模型输出质量几乎相同的同时，显著提升了长文本训练和推理的效率。
为了严格评估引入稀疏注意力的影响，我们特意将DeepSeek-V3.2-Exp的训练配置与V3.1-Terminus保持一致。在多个领域的公开基准测试中，DeepSeek-V3.2-Exp展现出与V3.1-Terminus相当的性能。

基准测试	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
无工具调用推理模式
MMLU-Pro	85.0	85.0
GPQA-Diamond	80.7	79.9
Humanity's Last Exam	21.7	19.8
LiveCodeBench	74.9	74.1
AIME 2025	88.4	89.3
HMMT 2025	86.1	83.6
Codeforces	2046	2121
Aider-Polyglot	76.1	74.5
智能体工具调用
BrowseComp	38.5	40.1
BrowseComp-zh	45.0	47.9
SimpleQA	96.8	97.1
SWE Verified	68.4	67.8
SWE-bench Multilingual	57.8	57.9
Terminal-bench	36.7	37.7

更新说明

2025.11.17：我们发现先前版本的推理演示代码中，索引器模块内的 Rotary Position Embedding（RoPE）存在实现不一致问题，这可能导致模型性能下降。 具体来说，索引器模块中输入到RoPE的张量需要采用非交错布局，而MLA模块中的RoPE则期望交错布局。此问题现已修复。请参考更新后的推理演示代码，并注意此实现细节。

本地运行方法

HuggingFace

我们在inference文件夹中提供了更新后的推理演示代码，以帮助社区快速上手使用我们的模型并了解其架构细节。

首先将HuggingFace模型权重转换为我们推理演示所需的格式。设置MP以匹配您可用的GPU数量：

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

启动交互式聊天界面，开始探索DeepSeek的功能：

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

SGLang

基于 Docker 的安装

# H200
docker pull lmsysorg/sglang:dsv32

# MI350
docker pull lmsysorg/sglang:dsv32-rocm

# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

启动命令

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attention

vLLM

vLLM 已为 DeepSeek-V3.2-Exp 提供首日支持。最新详情请参见使用指南。

开源内核

若需具备更高可读性和研究用途设计的 TileLang 内核，请参考 TileLang。

关于高性能 CUDA 内核，索引器 logit 内核（包括分页版本）可在 DeepGEMM 中获取。稀疏注意力内核已在 FlashMLA 中发布。

许可证

本仓库及模型权重采用 MIT 许可证授权。

引用

@misc{deepseekai2024deepseekv32,
      title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention}, 
      author={DeepSeek-AI},
      year={2025},
}

联系方式

若您有任何问题，请提交 issue 或通过 service@deepseek.com 与我们联系。