Xiaomi MiMo/MiMo-V2.5
模型介绍文件和版本Pull Requests讨论分析
下载使用量0



Xiaomi-MiMo

| 🤗 HuggingFace  | 📰 博客  | 🎨 Xiaomi MiMo API 平台  | 🗨️ Xiaomi MiMo Studio  |

社区
微信群  |  Discord  |  Telegram  |  Reddit

⚠️ 重要提示:配置更新通知

自初始版本发布以来,本仓库中的 config.json 和 tokenizer_config.json 文件已进行更新。如果您在此次 提交 (4da2748) 之前下载了 MiMo-V2.5,请重新拉取或手动更新这两个文件,以确保模型正常运行。使用过时的配置可能会导致模型性能下降。对于由此带来的任何不便,我们深表歉意。

快速修复:
hf download XiaomiMiMo/MiMo-V2.5 config.json tokenizer_config.json --local-dir ./MiMo-V2.5

MiMo-V2.5

1. 引言

MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型,在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理及智能体工作流方面均展现出卓越性能。其主要特性包括:

  • 混合注意力架构:继承自 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏置(attention sink bias),在将键值缓存(KV-cache)存储量降低近 6 倍的同时,仍保持长上下文性能。

  • 原生全模态编码器:配备 7.29 亿参数的视觉Transformer(ViT),该编码器具有混合窗口注意力机制;同时集成专用音频编码器,其权重初始化为 MiMo-Audio 的权重,可实现高质量的图像、视频和音频理解。

  • 多 token 预测(MTP):包含三个具有密集前馈网络(FFN)的轻量级 MTP 模块,通过投机解码(speculative decoding)加速推理,并提升强化学习(RL)训练效率。

  • 高效预训练:采用 FP8 混合精度,在总计约 48T tokens 的数据上完成训练。上下文窗口支持最多 100 万 tokens。

  • 智能体能力:训练后期融合了监督微调(SFT)、大规模智能体强化学习(agentic RL)以及多教师在线策略蒸馏(Multi-Teacher On-Policy Distillation, MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。

MiMo-V2.5 Architecture

模型摘要

  • 架构:稀疏混合专家模型(Sparse MoE),总参数 3100 亿 / 激活参数 150 亿
  • 上下文长度:最多 100 万 tokens
  • 模态:文本、图像、视频、音频
  • 视觉编码器:7.29 亿参数 ViT(28 层:24 层 SWA + 4 层全注意力)
  • 音频编码器:2.61 亿参数音频 Transformer(24 层:12 层 SWA + 12 层全注意力)
  • 多 token 预测(MTP):3.29 亿参数,3 层

2. 下载

模型上下文长度下载链接
MiMo-V2.5-Base256K🤗 HuggingFace
🤖 ModelScope
MiMo-V2.51M🤗 HuggingFace
🤖 ModelScope

3. 评估结果

多模态基准测试

MiMo-V2.5 Multimodal Benchmark Results

代码与智能体基准测试

MiMo-V2.5 Coding and Agentic Benchmark Results

长上下文基准测试

MiMo-V2.5 Graphwalks

4. 模型架构

大语言模型骨干

MiMo-V2.5 的核心语言骨干继承自 MiMo-V2-Flash 架构,这是一种具有混合滑动窗口注意力机制的稀疏 MoE 模型。

组件MiMo-V2.5-ProMiMo-V2.5
总参数量1.02T310B
激活参数量42B15B
隐藏层维度61444096
网络层数70(1 层稠密 + 69 层 MoE)48(1 层稠密 + 47 层 MoE)
全注意力层数109
SWA 层数6039
注意力头数12864
KV 头数8(GQA)8(GA)/ 4(SWA)
头维度(QK / V)192 / 128192 / 128
路由专家数384256
每 token 专家数88
MoE 中间层维度20482048
稠密中间层维度16384(仅第 0 层)16384(仅第 0 层)
SWA 窗口大小128128
最大上下文长度1M1M
MTP 层数33

视觉编码器

我们训练了一个专用的 MiMo ViT,它采用滑动窗口注意力机制以实现高效的视觉编码。

配置项数值
总层数28
滑动窗口注意力层数24
全注意力层数4
窗口注意力模式[-1] + [0,0,0,0,1,1,1,1,-1] × 3
注意力头数(Q / KV)32 / 8
头维度(QK / V)64 / 64
滑动窗口大小(L / R)64 / 64

窗口模式说明:-1 = 全注意力,0 = 一维行窗口,1 = 一维列窗口。

音频编码器

我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重,并经过进一步微调以支持高质量的音频理解。

配置项数值
总层数24
滑动窗口注意力层数12
全注意力层数12
滑动窗口大小128
注意力头数(Q / KV)16 / 16
头维度(QK / V)64 / 64

5. 训练流程

MiMo-V2.5 的训练数据总量约为 48T tokens。

  1. 文本预训练:收集多样化的文本数据用于预训练 LLM 骨干网络。
  2. 投影器预热:对多模态投影器(音频和视觉 MLP 投影器)进行短时间预热。
  3. 多模态预训练:收集高质量的多模态数据进行大规模预训练。
  4. SFT 与智能体后训练:使用多样化的智能体数据进行有监督微调。在此阶段,上下文窗口从 32K 逐步扩展到 256K,再到 1M。
  5. RL 与 MOPD 训练:通过强化学习提升感知、推理和智能体能力。

6. 部署

由于推理引擎在持续更新和优化,本指南仅提供部署示例供参考。为获得最佳性能,我们强烈建议遵循我们推荐的方法,以获取最新的最佳实践和最优性能。

SGLang 部署

为获得最佳性能,我们强烈推荐使用此方法进行部署,该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。

以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23811:

python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5 \
    --served-model-name mimo-v2.5 \
    --log-level-http warning \
    --enable-cache-report \
    --pp-size 1 \
    --dp-size 2 \
    --tp-size 8 \
    --enable-dp-attention \
    --moe-a2a-backend deepep \
    --deepep-mode auto \
    --decode-log-interval 1 \
    --page-size 1 \
    --host 0.0.0.0 \
    --port 9001 \
    --trust-remote-code \
    --watchdog-timeout 1000000 \
    --mem-fraction-static 0.65 \
    --chunked-prefill-size 16384 \
    --reasoning-parser qwen3 \
    --tool-call-parser mimo \
    --context-length 262144 \
    --collect-tokens-histogram \
    --enable-metrics \
    --load-balance-method round_robin \
    --allow-auto-truncate \
    --enable-metrics-for-all-schedulers \
    --quantization fp8 \
    --skip-server-warmup \
    --moe-dense-tp-size 1 \
    --enable-dp-lm-head \
    --disable-tokenizer-batch-decode \
    --mm-enable-dp-encoder \
    --attention-backend fa3 \
    --mm-attention-backend fa3

vLLM 部署

为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash 指南。

本地部署时,建议将采样参数设置为 temperature=1.0,top_p=0.95。

引用

@misc{mimov25,
  title={MiMo-V2.5},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

联系方式

如有任何问题或反馈,请通过 mimo@xiaomi.com 与我们联系,或加入我们的社区:

  • 微信群
  • Discord
  • Telegram
  • Reddit