DeepSeek-V4: 迈向高效的百万token上下文智能

简介

我们推出DeepSeek-V4系列的预览版本，包含两款强大的混合专家（Mixture-of-Experts, MoE）语言模型——参数规模为1.6T（激活49B）的DeepSeek-V4-Pro，以及参数规模为284B（激活13B）的DeepSeek-V4-Flash，两者均支持一百万token的上下文长度。

DeepSeek-V4系列在架构与优化方面进行了多项关键升级：

混合注意力架构：我们设计了一种融合压缩稀疏注意力（Compressed Sparse Attention, CSA）与深度压缩注意力（Heavily Compressed Attention, HCA）的混合注意力机制，大幅提升长上下文处理效率。在100万token上下文场景下，与DeepSeek-V3.2相比，DeepSeek-V4-Pro的单token推理FLOPs仅需27%，KV缓存仅需10%。
流形约束超连接（mHC）：我们引入mHC以增强传统残差连接，在保持模型表达能力的同时，提升跨层信号传播的稳定性。
Muon优化器：我们采用Muon优化器，以实现更快的收敛速度和更高的训练稳定性。

我们在超过32T的多样化高质量token上对两款模型进行预训练，随后执行全面的后训练流程。后训练采用两阶段范式：首先通过监督微调（SFT）和带GRPO的强化学习（RL）独立培养特定领域专家，然后通过有策略蒸馏进行统一模型整合，将不同领域的独特能力集成到单个模型中。

DeepSeek-V4-Pro-Max作为DeepSeek-V4-Pro的最大推理努力模式，显著提升了开源模型的知识能力，稳居当前最佳开源模型之列。它在代码基准测试中表现顶尖，并大幅缩小了与领先闭源模型在推理和智能体任务上的差距。同时，DeepSeek-V4-Flash-Max在给予更大思考预算时，能够达到与Pro版本相当的推理性能，尽管其较小的参数规模使其在纯知识任务和最复杂的智能体工作流上自然略逊一筹。

模型下载

模型	总参数数量	激活参数数量	上下文长度	精度	下载链接
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 混合精度	HuggingFace \| ModelScope
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 混合精度*	HuggingFace \| ModelScope
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 混合精度	HuggingFace \| ModelScope
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 混合精度*	HuggingFace \| ModelScope

*FP4 + FP8 混合精度：MoE 专家参数采用 FP4 精度；其他大部分参数采用 FP8 精度。

评估结果

基础模型

基准测试（指标）	提示次数	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
架构	-	MoE	MoE	MoE
激活参数数量	-	37B	13B	49B
总参数数量	-	671B	284B	1.6T
世界知识
AGIEval（精确匹配）	0 次提示	80.1	82.6	83.1
MMLU（精确匹配）	5 次提示	87.8	88.7	90.1
MMLU-Redux（精确匹配）	5 次提示	87.5	89.4	90.8
MMLU-Pro（精确匹配）	5 次提示	65.5	68.3	73.5
MMMLU（精确匹配）	5 次提示	87.9	88.8	90.3
C-Eval（精确匹配）	5 次提示	90.4	92.1	93.1
CMMLU（精确匹配）	5 次提示	88.9	90.4	90.8
MultiLoKo（精确匹配）	5 次提示	38.7	42.2	51.1
Simple-QA verified（精确匹配）	25 次提示	28.3	30.1	55.2
SuperGPQA（精确匹配）	5 次提示	45.0	46.5	53.9
FACTS Parametric（精确匹配）	25 次提示	27.1	33.9	62.6
TriviaQA（精确匹配）	5 次提示	83.3	82.8	85.6
语言与推理
BBH（精确匹配）	3 次提示	87.6	86.9	87.5
DROP（F1 分数）	1 次提示	88.2	88.6	88.7
HellaSwag（精确匹配）	0 次提示	86.4	85.7	88.0
WinoGrande（精确匹配）	0 次提示	78.9	79.5	81.5
CLUEWSC（精确匹配）	5 次提示	83.5	82.2	85.2
代码与数学
BigCodeBench（通过率@1）	3 次提示	63.9	56.8	59.2
HumanEval（通过率@1）	0 次提示	62.8	69.5	76.8
GSM8K（精确匹配）	8 次提示	91.1	90.8	92.6
MATH（精确匹配）	4 次提示	60.5	57.4	64.5
MGSM（精确匹配）	8 次提示	81.3	85.7	84.4
CMath（精确匹配）	3 次提示	92.6	93.6	90.9
长上下文
LongBench-V2（精确匹配）	1 次提示	40.2	44.7	51.5

指令模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理努力模式：

推理模式	特点	典型使用场景	响应格式
非思考模式	快速、直观的响应	日常常规任务、低风险决策	`</think>` summary
深度思考模式	有意识的逻辑分析，速度较慢但更准确	复杂问题解决、规划	`<RichMediaReference>` thinking `superscript:` summary
极致思考模式	将推理能力发挥到极致	探索模型推理能力的边界	特殊系统提示 + `superscript:` thinking `superscript:` summary

DeepSeek-V4-Pro-Max 与前沿模型对比

基准测试（指标）	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	K2.6 Thinking	GLM-5.1 Thinking	DS-V4-Pro Max
知识与推理
MMLU-Pro（精确匹配）	89.1	87.5	91.0	87.1	86.0	87.5
SimpleQA-Verified（通过率@1）	46.2	45.3	75.6	36.9	38.1	57.9
Chinese-SimpleQA（通过率@1）	76.4	76.8	85.9	75.9	75.0	84.4
GPQA Diamond（通过率@1）	91.3	93.0	94.3	90.5	86.2	90.1
HLE（通过率@1）	40.0	39.8	44.4	36.4	34.7	37.7
LiveCodeBench（通过率@1）	88.8	-	91.7	89.6	-	93.5
Codeforces（评分）	-	3168	3052	-	-	3206
HMMT 2026 年 2 月（通过率@1）	96.2	97.7	94.7	92.7	89.4	95.2
IMOAnswerBench（通过率@1）	75.3	91.4	81.0	86.0	83.8	89.8
Apex（通过率@1）	34.5	54.1	60.9	24.0	11.5	38.3
Apex Shortlist（通过率@1）	85.9	78.1	89.1	75.5	72.4	90.2
长上下文
MRCR 1M（平均倒数排名）	92.9	-	76.3	-	-	83.5
CorpusQA 1M（准确率）	71.7	-	53.8	-	-	62.0
智能体能力
Terminal Bench 2.0（准确率）	65.4	75.1	68.5	66.7	63.5	67.9
SWE Verified（已解决）	80.8	-	80.6	80.2	-	80.6
SWE Pro（已解决）	57.3	57.7	54.2	58.6	58.4	55.4
SWE Multilingual（已解决）	77.5	-	-	76.7	73.3	76.2
BrowseComp（通过率@1）	83.7	82.7	85.9	83.2	79.3	83.4
HLE 工具使用（通过率@1）	53.1	52.0	51.6	54.0	50.4	48.2
GDPval-AA（Elo 评分）	1619	1674	1314	1482	1535	1554
MCPAtlas Public（通过率@1）	73.8	67.2	69.2	66.6	71.8	73.6
Toolathlon（通过率@1）	47.2	54.6	48.8	50.0	40.7	51.8

不同模式间的对比

基准测试（指标）	V4-Flash 非思考模式	V4-Flash 深度思考模式	V4-Flash 极致思考模式	V4-Pro 非思考模式	V4-Pro 深度思考模式	V4-Pro 极致思考模式
知识与推理
MMLU-Pro（精确匹配）	83.0	86.4	86.2	82.9	87.1	87.5
SimpleQA-Verified（通过率@1）	23.1	28.9	34.1	45.0	46.2	57.9
Chinese-SimpleQA（通过率@1）	71.5	73.2	78.9	75.8	77.7	84.4
GPQA Diamond（通过率@1）	71.2	87.4	88.1	72.9	89.1	90.1
HLE（通过率@1）	8.1	29.4	34.8	7.7	34.5	37.7
LiveCodeBench（通过率@1）	55.2	88.4	91.6	56.8	89.8	93.5
Codeforces（评分）	-	2816	3052	-	2919	3206
HMMT 2026 年 2 月（通过率@1）	40.8	91.9	94.8	31.7	94.0	95.2
IMOAnswerBench（通过率@1）	41.9	85.1	88.4	35.3	88.0	89.8
Apex（通过率@1）	1.0	19.1	33.0	0.4	27.4	38.3
Apex Shortlist（通过率@1）	9.3	72.1	85.7	9.2	85.5	90.2
长上下文
MRCR 1M（平均倒数排名）	37.5	76.9	78.7	44.7	83.3	83.5
CorpusQA 1M（准确率）	15.5	59.3	60.5	35.6	56.5	62.0
智能体能力
Terminal Bench 2.0（准确率）	49.1	56.6	56.9	59.1	63.3	67.9
SWE Verified（已解决）	73.7	78.6	79.0	73.6	79.4	80.6
SWE Pro（已解决）	49.1	52.3	52.6	52.1	54.4	55.4
SWE Multilingual（已解决）	69.7	70.2	73.3	69.8	74.1	76.2
BrowseComp（通过率@1）	-	53.5	73.2	-	80.4	83.4
HLE 工具使用（通过率@1）	-	40.3	45.1	-	44.7	48.2
MCPAtlas（通过率@1）	64.0	67.4	69.0	69.4	74.2	73.6
GDPval-AA（Elo 评分）	-	-	1395	-	-	1554
Toolathlon（通过率@1）	40.7	43.5	47.8	46.3	49.0	51.8

对话模板

本版本未包含 Jinja 格式的对话模板。相反，我们提供了一个专门的 encoding 文件夹，其中包含 Python 脚本和测试用例，展示了如何将 OpenAI 兼容格式的消息编码为模型的输入字符串，以及如何解析模型的文本输出。完整文档请参考 encoding 文件夹。

简单示例：

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

如何本地运行

有关本地运行 DeepSeek-V4 的详细说明（包括模型权重转换和交互式聊天演示），请参考推理文件夹。

对于本地部署，我们建议将采样参数设置为 temperature = 1.0, top_p = 1.0。对于 Think Max 推理模式，我们建议将上下文窗口设置为至少 384K 个 token。

许可证

本仓库和模型权重采用 MIT 许可证授权。

引用

@misc{deepseekai2026deepseekv4,
      title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
      author={DeepSeek-AI},
      year={2026},
}

联系方式

若您有任何疑问，请提交 issue 或通过邮箱 service@deepseek.com 与我们联系。