E
Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

DeepSeek-V4-Flash-w8a8-mtp

1. 基本信息

项目信息
原始模型名DeepSeek-V4-Flash
原始模型链接 deepseek-ai/DeepSeek-V4-Flash
精度测试机型Atlas 800T A2 1台
精度测试平台docker vllm-ascend
版本vllm-ascend:v0.13.0rc3
链接quay.m.daocloud.io/ascend/vllm-ascend:v0.13.0rc3

2 量化脚本:

现已集成一键量化

msmodelslim quant \
 --model_path ${model_path} \
 --save_path ${save_path} \
 --model_type DeepSeek-V4-Flash \
 --quant_type w8a8 \
 --trust_remote_code True

3 精度测试结果

模型名量化格式数据集测试精度 %官方精度 %备注
DeepSeek-V4-Flash-w8a8-mtpw8a8gpqa71.2171.2V4-Flash 无思考
DeepSeek-V4-Flash-w8a8-mtpw8a8mmlupro82.8583.0V4-Flash 无思考
DeepSeek-V4-Flash-w8a8-mtpw8a8mmlupro85.8686.2V4-Flash 最大
  • 使用ais_bench,其中Non-Think模式max_out_len = 65536,Max模式max_out_len = 131072。精度存在波动,建议多次测试。

4 思考模式开启方法

4.1 Curl指令:

无思考:不加思考参数

高:"chat_template_kwargs": {"thinking": true, "reasoning_effort": "high"}

最大:"chat_template_kwargs": {"thinking": true, "reasoning_effort": "max"}

4.2 Ais_bench 基准测试:

无思考:不加思考参数

高:

generation_kwargs=dict(
            ....
            chat_template_kwargs = {"thinking": True, "reasoning_effort": "high"}
        )

麦克斯:

generation_kwargs=dict(
            ....
            chat_template_kwargs = {"thinking": True, "reasoning_effort": "max"}
        )