DeepSeek-V3.1-Terminus

简介

本次更新在保持模型原有能力的基础上，重点修复了用户反馈的若干问题，具体包括：

语言一致性：减少中英文混用现象及偶发的异常字符问题；
智能体能力：进一步优化代码智能体（Code Agent）与搜索智能体（Search Agent）的性能表现。

评测基准	DeepSeek-V3.1	DeepSeek-V3.1-Terminus
无工具推理模式
MMLU-Pro	84.8	85.0
GPQA-Diamond	80.1	80.7
Humanity's Last Exam	15.9	21.7
LiveCodeBench	74.8	74.9
Codeforces	2091	2046
Aider-Polyglot	76.3	76.1
智能体工具使用
BrowseComp	30.0	38.5
BrowseComp-zh	49.2	45.0
SimpleQA	93.4	96.8
SWE Verified	66.0	68.4
SWE-bench Multilingual	54.5	57.8
Terminal-bench	31.3	36.7

搜索智能体的模板与工具集已完成更新，具体内容详见 assets/search_tool_trajectory.html。

本地运行方法

DeepSeek-V3.1-Terminus 的模型结构与 DeepSeek-V3 保持一致。关于本地运行该模型的更多信息，请访问 DeepSeek-V3 代码仓库。

若需获取除搜索智能体外的模型对话模板，请参考 DeepSeek-V3.1 代码仓库。

我们在 inference 文件夹中提供了更新后的推理演示代码，以帮助社区快速上手模型运行并深入理解模型架构细节。

注意：在当前模型 checkpoint 中，self_attn.o_proj 的参数不符合 UE8M0 FP8 尺度数据格式。此为已知问题，将在未来的模型版本中修复。

许可证

本仓库及模型权重遵循 MIT 许可证。

引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}

联系方式

如有任何疑问，请提交 issue 或通过 service@deepseek.com 与我们联系。

简介