文档版本: v3.0 更新日期: 2026-04-09 适用环境: A3 镜像版本:
vllm-ascend:v0.17.0rc1-a3
| 项目 | 说明 |
|---|---|
| 镜像版本 | vllm-ascend-0.17.0rc1-a3 |
| vLLM 仓库路径 | /vllm-workspace/vllm |
| vLLM-Ascend 仓库路径 | /vllm-workspace/vllm-ascend |
| 魔搭 | https://www.modelscope.cn/models/miromind-ai/MiroThinker-1.7/summary |
nohup vllm serve /weight/miromind-ai/MiroThinker-1.7 \
--tensor-parallel-size 16 \
--host 0.0.0.0 \
--port 8002 \
--served-model-name miro \
--trust-remote-code \
--max-model-len 8192 \
--max-num-seqs 128 \
--gpu_memory_utilization 0.88 \
--compilation_config '{"cudagraph_mode": "FULL_DECODE_ONLY", "cudagraph_capture_sizes": [1,2,4,8,16,32,64,128]}' \
> miro_server.log 2>&1 &说明:
--tensor-parallel-size 16。--max-model-len 和 --max-num-seqs,根据实际业务进行调整。--compilation_config 指定档位,默认档位会导致stream报错。| 参数 | 值 |
|---|---|
| 模型名称 | MiroThinker-1.7 |
| 架构类型 | Qwen3MoeForCausalLM |
| 总参数量 | 约 235B |
| 注意力机制 | GQA (Grouped-Query Attention) |
| 注意力头数 | 64 |
| KV 头数 | 4 |
| 隐藏层维度 | 4096 |
| 层数 | 94 |
num_experts = 128 # 专家总数
num_experts_per_tok = 8 # 每次推理激活专家数
moe_intermediate_size = 1536 # 单个专家中间层维度
head_dim = 128 # 注意力头维度
max_position_embeddings = 262144 # 256K 超长上下文支持
rope_theta = 5000000 # 针对超长文本优化的 RoPE 基数本节包含基础功能验证、开启 MTP 的在线服务吞吐测试,以及长上下文在线服务测试。不同表格可能来自不同测试场景,表内已注明关键配置。
以下为基础功能验证:
curl http://{127.0.0.1:8002}/v1/chat/completions -H "Content-Type: application/json" -d ' {
"model": "miro",
"messages": [{"role": "user","content": "介绍一下你自己"}],
"max_tokens": 512,
"do_sample": false,
"stop": ["If"]
}'
以下数据为用vllm自测工具 vllm bench serve 的测试结果。第一章节的启动脚本是1k/4k场景的启动配置。
| 输入长度 | 并发数 | 请求数 | Mean TTFT (ms) | TTFT P50 (ms) | TTFT P90 (ms) | TTFT P99 (ms) | Mean TPOT (ms) | TPOT P50 (ms) | TPOT P90 (ms) | TPOT P99 (ms) | Mean ITL (ms) | ITL P50 (ms) | ITL P90 (ms) | ITL P99 (ms) | Mean E2E (ms) | E2E P50 (ms) | E2E P90 (ms) | E2E P99 (ms) | Output tok/s | Total tok/s | QPS (req/s) | tok/NPU |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1k/4k | 64 | 256 | 1628.18 | 865.88 | 4840.54 | 7241.85 | 67.58 | 67.41 | 68.81 | 69.26 | 67.58 | 66.21 | 70.24 | 73.62 | 278367.11 | 277129.33 | 282856.77 | 284098.09 | 939.5 | 1174.38 | 0.23 | 58.71875 |
| 10k/1k | 64 | 256 | 82302.44 | 97111.99 | 123253.62 | 129625.65 | 89.01 | 91.57 | 95.62 | 95.78 | 89.01 | 66.41 | 238.93 | 246.63 | 173358.72 | 191649.65 | 220981.46 | 227201.11 | 334.46 | 3679.05 | 0.33 | 229.940625 |