config.json 和 tokenizer_config.json 文件已进行更新。如果您在此次 提交 (4da2748) 之前下载了 MiMo-V2.5,请重新拉取或手动更新这两个文件,以确保模型正常运行。使用过时的配置可能会导致模型性能下降。对于由此带来的任何不便,我们深表歉意。hf download XiaomiMiMo/MiMo-V2.5 config.json tokenizer_config.json --local-dir ./MiMo-V2.5
MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型,在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理及智能体工作流方面均展现出卓越性能。其主要特性包括:
混合注意力架构:继承自 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏置(attention sink bias),在将键值缓存(KV-cache)存储量降低近 6 倍的同时,仍保持长上下文性能。
原生全模态编码器:配备 7.29 亿参数的视觉Transformer(ViT),该编码器具有混合窗口注意力机制;同时集成专用音频编码器,其权重初始化为 MiMo-Audio 的权重,可实现高质量的图像、视频和音频理解。
多 token 预测(MTP):包含三个具有密集前馈网络(FFN)的轻量级 MTP 模块,通过投机解码(speculative decoding)加速推理,并提升强化学习(RL)训练效率。
高效预训练:采用 FP8 混合精度,在总计约 48T tokens 的数据上完成训练。上下文窗口支持最多 100 万 tokens。
智能体能力:训练后期融合了监督微调(SFT)、大规模智能体强化学习(agentic RL)以及多教师在线策略蒸馏(Multi-Teacher On-Policy Distillation, MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。
| 模型 | 上下文长度 | 下载链接 |
|---|---|---|
| MiMo-V2.5-Base | 256K | 🤗 HuggingFace 🤖 ModelScope |
| MiMo-V2.5 | 1M | 🤗 HuggingFace 🤖 ModelScope |
MiMo-V2.5 的核心语言骨干继承自 MiMo-V2-Flash 架构,这是一种具有混合滑动窗口注意力机制的稀疏 MoE 模型。
| 组件 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数量 | 1.02T | 310B |
| 激活参数量 | 42B | 15B |
| 隐藏层维度 | 6144 | 4096 |
| 网络层数 | 70(1 层稠密 + 69 层 MoE) | 48(1 层稠密 + 47 层 MoE) |
| 全注意力层数 | 10 | 9 |
| SWA 层数 | 60 | 39 |
| 注意力头数 | 128 | 64 |
| KV 头数 | 8(GQA) | 8(GA)/ 4(SWA) |
| 头维度(QK / V) | 192 / 128 | 192 / 128 |
| 路由专家数 | 384 | 256 |
| 每 token 专家数 | 8 | 8 |
| MoE 中间层维度 | 2048 | 2048 |
| 稠密中间层维度 | 16384(仅第 0 层) | 16384(仅第 0 层) |
| SWA 窗口大小 | 128 | 128 |
| 最大上下文长度 | 1M | 1M |
| MTP 层数 | 3 | 3 |
我们训练了一个专用的 MiMo ViT,它采用滑动窗口注意力机制以实现高效的视觉编码。
| 配置项 | 数值 |
|---|---|
| 总层数 | 28 |
| 滑动窗口注意力层数 | 24 |
| 全注意力层数 | 4 |
| 窗口注意力模式 | [-1] + [0,0,0,0,1,1,1,1,-1] × 3 |
| 注意力头数(Q / KV) | 32 / 8 |
| 头维度(QK / V) | 64 / 64 |
| 滑动窗口大小(L / R) | 64 / 64 |
窗口模式说明:-1 = 全注意力,0 = 一维行窗口,1 = 一维列窗口。
我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重,并经过进一步微调以支持高质量的音频理解。
| 配置项 | 数值 |
|---|---|
| 总层数 | 24 |
| 滑动窗口注意力层数 | 12 |
| 全注意力层数 | 12 |
| 滑动窗口大小 | 128 |
| 注意力头数(Q / KV) | 16 / 16 |
| 头维度(QK / V) | 64 / 64 |
MiMo-V2.5 的训练数据总量约为 48T tokens。
由于推理引擎在持续更新和优化,本指南仅提供部署示例供参考。为获得最佳性能,我们强烈建议遵循我们推荐的方法,以获取最新的最佳实践和最优性能。
为获得最佳性能,我们强烈推荐使用此方法进行部署,该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。
以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23811:
python3 -m sglang.launch_server \
--model-path XiaomiMiMo/MiMo-V2.5 \
--served-model-name mimo-v2.5 \
--log-level-http warning \
--enable-cache-report \
--pp-size 1 \
--dp-size 2 \
--tp-size 8 \
--enable-dp-attention \
--moe-a2a-backend deepep \
--deepep-mode auto \
--decode-log-interval 1 \
--page-size 1 \
--host 0.0.0.0 \
--port 9001 \
--trust-remote-code \
--watchdog-timeout 1000000 \
--mem-fraction-static 0.65 \
--chunked-prefill-size 16384 \
--reasoning-parser qwen3 \
--tool-call-parser mimo \
--context-length 262144 \
--collect-tokens-histogram \
--enable-metrics \
--load-balance-method round_robin \
--allow-auto-truncate \
--enable-metrics-for-all-schedulers \
--quantization fp8 \
--skip-server-warmup \
--moe-dense-tp-size 1 \
--enable-dp-lm-head \
--disable-tokenizer-batch-decode \
--mm-enable-dp-encoder \
--attention-backend fa3 \
--mm-attention-backend fa3为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash 指南。
本地部署时,建议将采样参数设置为 temperature=1.0,top_p=0.95。
@misc{mimov25,
title={MiMo-V2.5},
year={2026},
howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}如有任何问题或反馈,请通过 mimo@xiaomi.com 与我们联系,或加入我们的社区: