我们很高兴地宣布DeepSeek-V3.2-Exp的正式发布,这是我们模型的一个实验版本。作为迈向我们下一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention——一种稀疏注意力机制,旨在探索和验证长文本场景下训练与推理效率的优化。
此次实验版本的发布,体现了我们在更高效Transformer架构方面持续的研究努力,尤其侧重于提升处理长文本序列时的计算效率。
DeepSeek Sparse Attention(DSA)首次实现了细粒度的稀疏注意力,在保持模型输出质量几乎相同的同时,显著提升了长文本训练和推理的效率。
为了严格评估引入稀疏注意力的影响,我们特意将DeepSeek-V3.2-Exp的训练配置与V3.1-Terminus保持一致。在多个领域的公开基准测试中,DeepSeek-V3.2-Exp展现出与V3.1-Terminus相当的性能。
| 基准测试 | DeepSeek-V3.1-Terminus | DeepSeek-V3.2-Exp |
|---|---|---|
| 无工具调用推理模式 | ||
| MMLU-Pro | 85.0 | 85.0 |
| GPQA-Diamond | 80.7 | 79.9 |
| Humanity's Last Exam | 21.7 | 19.8 |
| LiveCodeBench | 74.9 | 74.1 |
| AIME 2025 | 88.4 | 89.3 |
| HMMT 2025 | 86.1 | 83.6 |
| Codeforces | 2046 | 2121 |
| Aider-Polyglot | 76.1 | 74.5 |
| 智能体工具调用 | ||
| BrowseComp | 38.5 | 40.1 |
| BrowseComp-zh | 45.0 | 47.9 |
| SimpleQA | 96.8 | 97.1 |
| SWE Verified | 68.4 | 67.8 |
| SWE-bench Multilingual | 57.8 | 57.9 |
| Terminal-bench | 36.7 | 37.7 |
我们在inference文件夹中提供了更新后的推理演示代码,以帮助社区快速上手使用我们的模型并了解其架构细节。
首先将HuggingFace模型权重转换为我们推理演示所需的格式。设置MP以匹配您可用的GPU数量:
cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}启动交互式聊天界面,开始探索DeepSeek的功能:
export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive# H200
docker pull lmsysorg/sglang:dsv32
# MI350
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attentionvLLM 已为 DeepSeek-V3.2-Exp 提供首日支持。最新详情请参见 使用指南。
若需具备更高可读性和研究用途设计的 TileLang 内核,请参考 TileLang。
关于高性能 CUDA 内核,索引器 logit 内核(包括分页版本)可在 DeepGEMM 中获取。稀疏注意力内核已在 FlashMLA 中发布。
本仓库及模型权重采用 MIT 许可证 授权。
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
author={DeepSeek-AI},
year={2025},
}若您有任何问题,请提交 issue 或通过 service@deepseek.com 与我们联系。