本次更新在保持模型原有能力的基础上,重点修复了用户反馈的若干问题,具体包括:
| 评测基准 | DeepSeek-V3.1 | DeepSeek-V3.1-Terminus |
|---|---|---|
| 无工具推理模式 | ||
| MMLU-Pro | 84.8 | 85.0 |
| GPQA-Diamond | 80.1 | 80.7 |
| Humanity's Last Exam | 15.9 | 21.7 |
| LiveCodeBench | 74.8 | 74.9 |
| Codeforces | 2091 | 2046 |
| Aider-Polyglot | 76.3 | 76.1 |
| 智能体工具使用 | ||
| BrowseComp | 30.0 | 38.5 |
| BrowseComp-zh | 49.2 | 45.0 |
| SimpleQA | 93.4 | 96.8 |
| SWE Verified | 66.0 | 68.4 |
| SWE-bench Multilingual | 54.5 | 57.8 |
| Terminal-bench | 31.3 | 36.7 |
搜索智能体的模板与工具集已完成更新,具体内容详见 assets/search_tool_trajectory.html。
DeepSeek-V3.1-Terminus 的模型结构与 DeepSeek-V3 保持一致。关于本地运行该模型的更多信息,请访问 DeepSeek-V3 代码仓库。
若需获取除搜索智能体外的模型对话模板,请参考 DeepSeek-V3.1 代码仓库。
我们在 inference 文件夹中提供了更新后的推理演示代码,以帮助社区快速上手模型运行并深入理解模型架构细节。
注意:在当前模型 checkpoint 中,self_attn.o_proj 的参数不符合 UE8M0 FP8 尺度数据格式。此为已知问题,将在未来的模型版本中修复。
本仓库及模型权重遵循 MIT 许可证。
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}如有任何疑问,请提交 issue 或通过 service@deepseek.com 与我们联系。