今天,我们正式将 MiniMax-M2.1 交付给开源社区。此次发布不仅是参数层面的更新,更是朝着顶级智能体能力民主化迈出的重要一步。
M2.1 的构建旨在打破“高性能智能体必须封闭”的固有认知。我们对模型进行了针对性优化,使其在编码、工具使用、指令遵循和长程规划方面具备更强的稳健性。从多语言软件开发自动化到复杂多步骤办公流程执行,MiniMax-M2.1 助力开发者构建下一代自主应用——全程保持完全透明、可控且易于获取。
我们坚信,真正的智能应当触手可及。M2.1 是我们对未来的承诺,也是你手中强大的新工具。
在核心软件工程排行榜上,MiniMax-M2.1 较 M2 实现了显著飞跃。尤其在多语言场景中表现突出,其性能超越 Claude Sonnet 4.5,与 Claude Opus 4.5 已十分接近。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 74.0 | 69.4 | 77.2 | 80.9 | 78.0 | 80.0 | 73.1 |
| Multi-SWE-bench | 49.4 | 36.2 | 44.3 | 50.0 | 42.7 | x | 37.4 |
| SWE-bench Multilingual | 72.5 | 56.5 | 68 | 77.5 | 65.0 | 72.0 | 70.2 |
| Terminal-bench 2.0 | 47.9 | 30.0 | 50.0 | 57.8 | 54.2 | 54.0 | 46.4 |
我们还在多种编码智能体框架下对 MiniMax-M2.1 进行了 SWE-bench Verified 测试。结果彰显了该模型卓越的框架泛化能力和稳健的稳定性。
此外,在特定基准测试中——包括测试用例生成、代码性能优化、代码审查和指令遵循——MiniMax-M2.1 均展现出相较于 M2 的全面提升。在这些专业领域,其性能持续达到或超越 Claude Sonnet 4.5。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified (Droid) | 71.3 | 68.1 | 72.3 | 75.2 | x | x | 67.0 |
| SWE-bench Verified (mini-swe-agent) | 67.0 | 61.0 | 70.6 | 74.4 | 71.8 | 74.2 | 60.0 |
| SWT-bench | 69.3 | 32.8 | 69.5 | 80.2 | 79.7 | 80.7 | 62.0 |
| SWE-Perf | 3.1 | 1.4 | 3.0 | 4.7 | 6.5 | 3.6 | 0.9 |
| SWE-Review | 8.9 | 3.4 | 10.5 | 16.2 | x | x | 6.4 |
| OctoCodingbench | 26.1 | 13.3 | 22.8 | 36.2 | 22.9 | x | 26.0 |
为评估模型“从零到一”架构完整、功能可用应用的全栈能力,我们建立了全新基准测试:VIBE(Visual & Interactive Benchmark for Execution in Application Development,应用开发执行的视觉与交互基准)。该套件包含五个核心子集:Web、Simulation(仿真)、Android、iOS 和 Backend(后端)。与传统基准测试不同,VIBE 采用创新的 Agent-as-a-Verifier (AaaV,智能体验证者) 范式,在真实运行环境中自动评估生成应用的交互逻辑和视觉美感。
MiniMax-M2.1 在 VIBE 综合基准测试中表现卓越,平均得分达 88.6——充分展示了其强大的全栈开发能力。尤其在 VIBE-Web(91.5)和 VIBE-Android(89.7)子集上表现突出。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| VIBE(平均) | 88.6 | 67.5 | 85.2 | 90.7 | 82.4 |
| VIBE-Web | 91.5 | 80.4 | 87.3 | 89.1 | 89.5 |
| VIBE-Simulation | 87.1 | 77.0 | 79.1 | 84.0 | 89.2 |
| VIBE-Android | 89.7 | 69.2 | 87.5 | 92.2 | 78.7 |
| VIBE-iOS | 88.0 | 39.5 | 81.2 | 90.0 | 75.8 |
| VIBE-Backend | 86.7 | 67.8 | 90.8 | 98.0 | 78.7 |
MiniMax-M2.1 在长程工具使用和综合智能指标方面也均较 M2 实现了稳步提升。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| Toolathlon | 43.5 | 16.7 | 38.9 | 43.5 | 36.4 | 41.7 | 35.2 |
| BrowseComp | 47.4 | 44.0 | 19.6 | 37.0 | 37.8 | 65.8 | 51.4 |
| BrowseComp (context management) | 62.0 | 56.9 | 26.1 | 57.8 | 59.2 | 70.0 | 67.6 |
| AIME25 | 83.0 | 78.0 | 88.0 | 91.0 | 96.0 | 98.0 | 92.0 |
| MMLU-Pro | 88.0 | 82.0 | 88.0 | 90.0 | 90.0 | 87.0 | 86.0 |
| GPQA-D | 83.0 | 78.0 | 83.0 | 87.0 | 91.0 | 90.0 | 84.0 |
| HLE w/o tools | 22.2 | 12.5 | 17.3 | 28.4 | 37.2 | 31.4 | 22.2 |
| LCB | 81.0 | 83.0 | 71.0 | 87.0 | 92.0 | 89.0 | 86.0 |
| SciCode | 41.0 | 36.0 | 45.0 | 50.0 | 56.0 | 52.0 | 39.0 |
| IFBench | 70.0 | 72.0 | 57.0 | 58.0 | 70.0 | 75.0 | 61.0 |
| AA-LCR | 62.0 | 61.0 | 66.0 | 74.0 | 71.0 | 73.0 | 65.0 |
| 𝜏²-Bench Telecom | 87.0 | 87.0 | 78.0 | 90.0 | 87.0 | 85.0 | 91.0 |
评估方法说明:
- SWE-bench Verified:在内部基础设施上测试,使用 Claude Code、Droid 或 mini-swe-agent 作为脚手架。默认情况下,我们采用 Claude Code 指标。使用 Claude Code 时,会覆盖默认系统提示。结果为 4 次运行的平均值。
- Multi-SWE-Bench、SWE-bench Multilingual、SWT-bench、SWE-Perf:在内部基础设施上测试,使用 Claude Code 作为脚手架,并覆盖默认系统提示。结果为 4 次运行的平均值。
- Terminal-bench 2.0:在我们的内部评估框架上使用 Claude Code 进行测试。我们验证了完整数据集并修复了环境问题。移除了超时限制,其他所有配置均与官方设置保持一致。结果为 4 次运行的平均值。
- SWE Review:基于 SWE 框架构建的内部代码缺陷审查基准,涵盖多种语言和场景,评估缺陷召回率和幻觉率。只有当模型准确识别目标缺陷且确保所有其他报告结果有效且无幻觉时,审查才被视为“正确”。所有评估均使用 Claude Code 执行,最终结果反映每个测试用例四次独立运行的平均值。我们计划很快将此基准测试开源。
- OctoCodingbench:一个专注于复杂开发场景下代码智能体长程指令遵循的内部基准测试。它在跨越不同技术栈和脚手架框架的动态环境中进行端到端行为监督。核心目标是评估模型整合和执行“复合指令约束”的能力——包括系统提示(SP)、用户查询、内存、工具模式以及
Agents.md、Claude.md和Skill.md等规范。采用严格的“单次违规即失败”评分机制,最终结果为 4 次运行的平均通过率,量化模型将静态约束转化为精确行为的稳健性。我们计划很快将此基准测试开源。- VIBE:一个内部基准测试,使用 Claude Code 作为脚手架来自动验证程序的交互逻辑和视觉效果。分数通过包含需求集、容器化部署和动态交互环境的统一管道计算得出。最终结果为 3 次运行的平均值。我们已在 VIBE 开源此基准测试。
- Toolathlon:评估协议与原论文保持一致。
- BrowseComp:所有分数均使用与 WebExplorer(Liu et al. 2025)相同的智能体框架获得,仅对工具描述进行了微小调整。我们使用了与 WebExplorer 相同的 103 样本 GAIA 纯文本验证子集。
- BrowseComp (context management):当令牌使用量超过最大上下文窗口的 30% 时,我们保留第一个 AI 响应、最后五个 AI 响应以及工具输出,丢弃其余内容。
- AIME25 ~ 𝜏²-Bench Telecom:基于 Artificial Analysis Intelligence Index 中引用的评估数据集和方法进行内部测试得出。
从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2.1
我们推荐使用以下推理框架(按字母顺序排列)来部署模型:
我们推荐使用 SGLang 来部署 MiniMax-M2.1。请参考我们的 SGLang 部署指南。
我们推荐使用 vLLM 来部署 MiniMax-M2.1。请参考我们的 vLLM 部署指南。
我们推荐使用 Transformers 来部署 MiniMax-M2.1。请参考我们的 Transformers 部署指南。
我们推荐使用 KTransformers 来部署 MiniMax-M2.1。请参考 KTransformers 部署指南
为获得最佳性能,我们推荐使用以下参数:temperature=1.0,top_p = 0.95,top_k = 40。默认系统提示词:
You are a helpful assistant. Your name is MiniMax-M2.1 and is built by MiniMax.请参考我们的工具调用指南。
请通过model@minimax.io与我们联系。