MiMo-V2.5-Pro 是一款开源的混合专家(MoE)语言模型,总参数量达 1.02T,激活参数量为 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多 token 预测(MTP)技术,上下文长度最高支持 100 万 token。
MiMo-V2.5-Pro 是我们目前性能最强的模型,专为最具挑战性的智能体任务、复杂软件工程以及长周期任务而设计。它能在 100 万 token 的上下文窗口内,凭借出色的指令遵循能力和连贯性,支持包含数千次工具调用的复杂任务流程。主要特性包括:
| 模型 | 总参数 | 激活参数 | 上下文长度 | 精度 | 下载 |
|---|---|---|---|---|---|
| MiMo-V2.5-Pro | 1.02T | 42B | 1M | FP8 (E4M3) 混合精度 | 🤗 HuggingFace |
| MiMo-V2.5-Pro-Base | 1.02T | 42B | 256K | FP8 (E4M3) 混合精度 | 🤗 HuggingFace |
| 类别 | 基准测试 | 设置 | MiMo-V2.5-Pro Base | MiMo-V2.5 Base | DeepSeek-V4-Pro Base | DeepSeek-V4-Flash Base | Kimi-K2 Base |
|---|---|---|---|---|---|---|---|
| 参数 | #激活参数 / #总参数 | - | 42B / 1.02T | 15B / 310B | 49B / 1.6T | 13B / 284B | 32B / 1.04T |
| 通用能力 | BBH | 3-shot | 88.4 | 87.2 | 87.5 | 86.9 | 88.7 |
| MMLU | 5-shot | 89.4 | 86.3 | 90.1 | 88.7 | 87.8 | |
| MMLU-Redux | 5-shot | 92.8 | 89.8 | 90.8 | 89.4 | 90.2 | |
| MMLU-Pro | 5-shot | 68.5 | 65.8 | 73.5 | 68.3 | 69.2 | |
| DROP | 3-shot | 86.3 | 83.7 | 88.7 | 88.6 | 83.6 | |
| ARC-Challenge | 25-shot | 97.2 | 96.5 | - | - | 96.2 | |
| HellaSwag | 10-shot | 89.8 | 88.6 | 88.0 | 85.7 | 94.6 | |
| WinoGrande | 5-shot | 85.6 | 84.7 | 81.5 | 79.5 | 85.3 | |
| TriviaQA | 5-shot | 81.3 | 80.7 | 85.6 | 82.8 | 85.1 | |
| GPQA-Diamond | 5-shot | 66.7 | 58.1 | - | - | 48.1 | |
| 数学能力 | GSM8K | 8-shot | 99.6 | 83.3 | 92.6 | 90.8 | 92.1 |
| MATH | 4-shot | 86.2 | 67.7 | 64.5 | 57.4 | 70.2 | |
| AIME 24&25 | 2-shot | 37.3 | 36.9 | - | - | 31.6 | |
| 代码能力 | HumanEval+ | 1-shot | 75.6 | 71.3 | - | - | 84.8 |
| MBPP+ | 3-shot | 74.1 | 70.9 | - | - | 73.8 | |
| LiveCodeBench v6 | 1-shot | 39.6 | 35.5 | - | - | 26.3 | |
| SWE-Bench (AgentLess) | 3-shot | 35.7 | 30.8 | - | - | 28.2 | |
| 中文能力 | C-Eval | 5-shot | 91.5 | 88.6 | 93.1 | 92.1 | 92.5 |
| CMMLU | 5-shot | 90.2 | 88.2 | 90.8 | 90.4 | 90.9 | |
| 多语言能力 | GlobalMMLU | 5-shot | 83.6 | 77.4 | - | - | 80.7 |
GraphWalks 是 OpenAI 推出的一项长文本上下文基准测试,它在提示词中嵌入由十六进制哈希节点构成的有向图,并要求模型执行广度优先搜索(找出深度恰好为 N 的节点)或列出某个节点的父节点。我们在 32k 至 100 万输入 tokens 的完整范围内进行了评估,并采用了 Anthropic 所述的相同评估修正方法。
MiMo V2.5 Pro 在长文本上下文推理方面实现了重大飞跃。超过 128k tokens 后,V2 Pro 的性能便迅速下降,在 100 万 tokens 时两项子任务的得分均降至 0.00;而 V2.5 Pro 在 512k tokens 时仍能获得 0.56(BFS 任务)/ 0.92(父节点任务)的分数,在 100 万 tokens 时也保持在 0.37 / 0.62。
MiMo-V2.5-Pro 通过交错使用局部滑动窗口注意力(SWA)和全局注意力(GA),解决了长文本上下文带来的二次复杂度问题。与传统的投机解码不同,我们的 MTP 模块在训练和推理阶段均实现了原生集成。
| 组件 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数数量 | 1.02T | 310B |
| 激活参数数量 | 42B | 15B |
| 隐藏层维度 | 6144 | 4096 |
| 网络层数 | 70(1 层密集 + 69 层 MoE) | 48(1 层密集 + 47 层 MoE) |
| 全注意力层数 | 10 | 9 |
| 滑动窗口注意力(SWA)层数 | 60 | 39 |
| 注意力头数量 | 128 | 64 |
| KV 头数量 | 8(GQA) | 8(GA)/ 4(SWA) |
| 头维度(QK / V) | 192 / 128 | 192 / 128 |
| 路由专家数量 | 384 | 256 |
| 每 token 专家数 | 8 | 8 |
| MoE 中间层维度 | 2048 | 2048 |
| 密集中间层维度 | 16384(仅第 0 层) | 16384(仅第 0 层) |
| SWA 窗口大小 | 128 | 128 |
| 最大上下文长度 | 1M | 1M |
| MTP 层数 | 3 | 3 |
在后期训练阶段,MiMo-V2.5-Pro 采用了 MiMo-V2-Flash 中提出的三阶段后期训练范式,以实现卓越性能。该范式首先通过监督微调(SFT),利用精选的数据对构建强大的基础指令遵循能力。接下来,在领域专项训练阶段,针对从数学、安全到复杂智能体工具使用等不同领域,使用特定领域的强化学习奖励对多样化的教师模型进行单独优化。最后,通过多教师在线策略蒸馏(MOPD)完成整个训练过程。通过动态在线策略强化学习,单个学生模型从自身输出中迭代学习,并持续接收来自专家教师的精确 token 级指导,从而无缝整合广泛能力。
由于推理引擎在持续更新和优化,本指南仅提供部署示例供参考。为获得最佳性能,我们强烈建议遵循我们引用的方法,以获取最新的最佳实践和最优性能。
为获得最佳性能,我们强烈建议采用此部署方式,该方式得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5-Pro Cookbook。
以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23808:
SGLANG_ENABLE_SPEC_V2=1
SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256
python3 -m sglang.launch_server \
--model-path XiaomiMiMo/MiMo-V2.5-Pro \
--trust-remote-code \
--pp-size 1 \
--dp-size 2 \
--ep-size 16 \
--tp-size 16 \
--moe-dense-tp-size 1 \
--enable-dp-attention \
--moe-a2a-backend deepep \
--dist-init-addr ${LWS_LEADER_IP}:20000 \
--node-rank ${LWS_WORKER_INDEX} \
--nnodes ${LWS_GROUP_SIZE} \
--page-size 64 \
--attention-backend fa3 \
--quantization fp8 \
--mem-fraction-static 0.7 \
--max-running-requests 128 \
--cuda-graph-max-bs 64 \
--chunked-prefill-size 32768 \
--context-length 1048576 \
--tokenizer-worker-num 64 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--enable-multi-layer-eagle \
--host 0.0.0.0 \
--port 9001 \
--reasoning-parser mimo \
--tool-call-parser mimo \
--watchdog-timeout 3600 \
--model-loader-extra-config '{"enable_multithread_load": "true","num_threads": 64}'为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到了 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2.5-Pro Cookbook。
对于本地部署,我们建议将采样参数设置为 temperature=1.0,top_p=0.95。
@misc{mimo2026v25pro,
title={MiMo-V2.5-Pro},
author={{Xiaomi MiMo Team}},
year={2026},
howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}如您有任何问题或反馈,请通过mimo@xiaomi.com与我们联系,或加入我们的社区: