OpenBMB 开源社区/MiniCPM5-1B-MLX
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MiniCPM 技术报告 | GitHub 仓库 | UltraData | MiniCPM 桌面宠物 | 在线演示

English | 中文

亮点特性

我们正式发布 MiniCPM5-1B,这是 MiniCPM5 系列的首款模型。它是一个专为端侧、本地部署和资源受限场景打造的 10 亿参数稠密 Transformer 模型,达到了开源 10 亿参数级别模型的性能天花板。

🏆 开源 10 亿参数级别性能天花板:与同尺寸的优秀开源模型相比,MiniCPM5-1B 在该对比范围内实现了性能领先。其优势在智能体工具使用、代码生成和复杂推理任务中尤为显著。

MiniCPM5-1B 各领域能力对比

🧠 混合推理能力:内置 </think> 对话模板,可通过 enable_thinking 开关切换。同一模型 checkpoint 既能作为快速响应助手,也能作为深度推理器。

🛠️ 部署/微调资源:MiniCPM GitHub 仓库提供了单页式使用指南和智能体技能示例,支持主流推理后端和微调框架。

🐱 桌面宠物:一款由 MiniCPM5-1B 驱动的本地大语言模型桌面宠物。

模型列表

通过以下目录选择适合您运行环境的模型格式:

  • MiniCPM5-1B · ModelScope · BF16 最终发布版(经 RL + OPD 后训练)
  • MiniCPM5-1B-SFT · ModelScope · BF16 仅 SFT 版本(未经 RL / OPD 优化)
  • MiniCPM5-1B-Base · ModelScope · BF16 基础版本(仅预训练)
  • MiniCPM5-1B-GGUF · ModelScope · 适用于 llama.cpp / Ollama / LM Studio 的 GGUF 格式
  • MiniCPM5-1B-MLX · ModelScope · 适用于 Apple Silicon 的 MLX / 4bit 量化版本 👈 您当前所在页面

模型信息

MiniCPM5-1B 具有以下特点:

  • 类型:因果语言模型
  • 架构:标准 LlamaForCausalLM
  • 参数量:1,080,632,832
  • 非嵌入参数量:679,552,512
  • 层数:24
  • 注意力头数(GQA):Q 为 16,KV 为 2
  • 上下文长度:131,072

简介

MiniCPM5-1B 是 MiniCPM5 系列的首个 checkpoint。它专为本地助手、编码代理、工具使用工作流以及偏好轻量级模型的推理场景而设计。该模型在保持小巧部署体积的同时,原生支持长上下文,并通过同一 checkpoint 提供思考(Think)/ 非思考(No Think)两种对话模式。

评估结果

我们将 MiniCPM5-1B 与同尺寸级别中表现出色的开源模型进行了对比,包括 LFM2.5-1.2B-Thinking、Qwen3-0.6B/think 和 Qwen3.5-0.8B/think。这些均为性能强劲的基线模型;在该对比组中,MiniCPM5-1B 达到了 10 亿参数级开源模型的 SOTA 水平,其优势在工具使用、代码生成和复杂推理任务中尤为显著。这使其成为本地编码代理、工具助手和推理助手的实用选择。

MiniCPM-5 1B 公开排行榜

训练方案

MiniCPM5-1B 的训练是 UltraData 分层数据管理 的全流程实践,涵盖三个阶段:基础训练、中期训练和后期训练。

在基础训练阶段,模型通过稳定训练和衰减训练构建核心语言能力与训练稳定性。随后进入中期训练,进一步强化目标能力并适应目标数据分布。训练语料库与模型一同发布,包括 Ultra-FineWeb、Ultra-FineWeb-L3 和 UltraData-Math。

在后期训练阶段,我们分三步进行:SFT、RL 和 OPD。首先,使用2000 亿 tokens 的深度思考 SFT 和2000 亿 tokens 的混合思考 SFT 来建立深度思考、混合思考和通用对话能力;SFT 数据发布为 UltraData-SFT-2605。然后,针对数学、代码、闭卷问答、写作及相关领域训练专门的RL 教师模型,并通过On-Policy Distillation (OPD) 将这些教师模型的能力蒸馏到最终发布的单一模型中。

MiniCPM5-1B 训练方案

RL + OPD 带来了什么?

RL + OPD 是 MiniCPM5-1B 后训练阶段的关键组成部分。在数学、代码和指令遵循任务上,RL + OPD 将平均得分提升了 ↑16 分,同时将达到最大 tokens 预算的响应占比降低了 ↓29 个百分点。下图展示了两阶段推理 RL 流程、得分提升情况以及超长响应的减少趋势。

RL 融合了推理、闭卷问答、写作、指令遵循、长上下文理解和通用对话等互补训练信号。推理 RL 基于 DAPO-Math-17k,遵循 JustRL 的极简方案,并进一步引入两阶段长度调度机制,在提升推理准确性的同时减少超长响应。我们还使用 TriviaQA、NQ-Open、LongWriter-Zero-RLData、合成的可验证 RLVR 数据以及 pairwise RLHF 信号,以提升模型的可靠性、指令遵循能力和用户体验。

MiniCPM5-1B RL Two-stage Pipeline

OPD 基于 Thinking Machines Lab 的 On-Policy Distillation,并融合了 Rethinking On-Policy Distillation 中的实现改进。在 RL 框架中,我们使用反向 KL 散度作为优势估计,替代原始的基于验证的优势。在每个响应位置,我们从学生模型和教师模型中提取 top-k logits,在两个 token 集合的并集上计算反向 KL,并平衡 RKL 信号的准确性与训练效率。OPD 复用训练每个 RL 教师时使用的领域内提示作为蒸馏数据,因此无需额外的数据整理。

MiniCPM5-1B RL + OPD Gains

MiniCPM5-1B RL + OPD Overlong Response Rate Drop

快速入门

vLLM

pip install "vllm>=0.21"
vllm serve openbmb/MiniCPM5-1B --port 8000
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

SGLang

pip install "sglang[srt]>=0.5.12"
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000
curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

变形金刚

pip install -U "transformers>=5.6" accelerate torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [{"role": "user", "content": "Who are you? Please briefly introduce yourself."}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    enable_thinking=False,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

推荐的对话模板采样:

模式推荐参数启用
思考temperature=0.9, top_p=0.95enable_thinking=True
无思考temperature=0.7, top_p=0.95enable_thinking=False

工具调用

对于工具/函数调用,推荐使用 SGLang 作为后端。MiniCPM5-1B 会生成 XML 格式的工具调用,而 SGLang 内置的 minicpm5 解析器可将其原生转换为与 OpenAI 兼容的 tool_calls:

python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
    --tool-call-parser minicpm5      # or: --tool-call-parser auto

GitHub 实用指南与智能体技能

MiniCPM5-1B 采用标准 LlamaForCausalLM 架构,主流推理引擎可直接加载:无需自定义内核,无需模型代码分支。如需详细部署和微调说明,请参考以下 GitHub 实用指南。对于使用 Cursor / Claude Code 风格编码智能体的用户,智能体技能已作为 GitHub 资源链接提供。

部署

后端模型格式 / 应用场景实用指南智能体技能
TransformersBF16 / FP16 本地 Python 推理,GPU + CPUtransformers.mdminicpm5-deploy-transformers
vLLMBF16 / FP16 OpenAI 服务器vllm.mdminicpm5-deploy-vllm
SGLangBF16 / FP16 OpenAI 服务器,推荐用于工具调用sglang.mdminicpm5-deploy-sglang
llama.cppGGUF 本地推理,CPU/GPUllama_cpp.mdminicpm5-deploy-llama-cpp
OllamaGGUF 本地设备运行时ollama.mdminicpm5-deploy-ollama
LM StudioGGUF Mac 桌面应用及 OpenAI 服务器lmstudio.mdminicpm5-deploy-lmstudio
MLXMLX / 4bit 本地推理(适用于 Apple Silicon)mlx.mdminicpm5-deploy-mlx
ArcLightGGUF 本地设备,CPU,桌面端及服务器arclight.mdminicpm5-deploy-arclight

微调

框架用途操作指南智能体技能
TRL + PEFTLoRA / SFT 微调trl.mdminicpm5-finetune-trl
LLaMA-Factory微调llamafactory.mdminicpm5-finetune-llamafactory
ms-swift微调ms_swift.mdminicpm5-finetune-ms-swift
unsloth微调unsloth.mdminicpm5-finetune-unsloth
xtuner微调xtuner.mdminicpm5-finetune-xtuner

其他支持的框架

除上述部署和微调框架外,MiniCPM5-1B 还支持通过 FlagOS 进行多芯片部署。

FlagOS 概述

为实现跨不同 AI 芯片的大规模部署,北京智源研究院联合国内外众多研究机构、芯片厂商、系统供应商以及算法和软件组织,共同发起并成立了 FlagOS 开源社区。

FlagOS 社区致力于为各类 AI 芯片构建统一的开源系统软件栈,涵盖大规模算子库、统一 AI 编译器、并行训练与推理框架以及统一通信库等核心开源项目。其目标是打造连接“模型-系统-芯片”各层的开放技术生态。通过实现“一次开发,跨芯片部署”,FlagOS 释放硬件的计算潜力,打破不同芯片软件栈之间的生态壁垒,有效降低开发者的迁移成本。FlagOS 社区培育 AI 软硬件生态,克服单一厂商的闭源垄断,推动 AI 硬件技术的广泛应用,并致力于立足中国、拥抱全球合作。

官方网站:https://flagos.io

FlagOS 多芯片支持与使用方法

FlagOS:支持多种 AI 芯片

借助 FlagOS 统一的多芯片 AI 系统软件栈,MiniCPM5-1B 在极短时间内完成了对 4-5 种不同 AI 芯片的适配。目前,MiniCPM5-1B 的多芯片版本已在 FlagRelease 平台发布,该平台是 FlagOS 用于跨多架构 AI 芯片自动迁移、适配和部署大模型的平台。具体信息如下:

厂商ModelScopeHuggingface
NvidiaMiniCPM5-1B-nvidia-FlagOSMiniCPM5-1B-nvidia-FlagOS
HygonMiniCPM5-1B-hygon-FlagOSMiniCPM5-1B-hygon-FlagOS
MetaxMiniCPM5-1B-metax-FlagOSMiniCPM5-1B-metax-FlagOS
IluvatarMiniCPM5-1B-iluvatar-FlagOSMiniCPM5-1B-iluvatar-FlagOS
ZhenwuMiniCPM5-1B-zhenwu-FlagOSMiniCPM5-1B-zhenwu-FlagOS
MthreadsMiniCPM5-1B-mthreads-FlagOSMiniCPM5-1B-mthreads-FlagOS
KunlunxinMiniCPM5-1B-kunlunxin-FlagOSMiniCPM5-1B-kunlunxin-FlagOS
AscendMiniCPM5-1B-ascend-FlagOSMiniCPM5-1B-ascend-FlagOS
ARM-v9MiniCPM5-1B-Armv9-FlagOSMiniCPM5-1B-Armv9-FlagOS

FlagOS 使用方法

FlagOS 在 Nvidia 上的性能加速
从 FlagRelease 获取(推荐)

FlagRelease 是 FlagOS 团队开发的用于跨多架构 AI 芯片自动迁移、适配和部署大模型的平台。MiniCPM5-1B 的多芯片版本已在 FlagRelease 发布。平台上已预装所有必要的软件包,用户无需进行任何安装操作。

FlagRelease 镜像主要版本
FlagRelease 快速开始
厂商ModelScopeHuggingface
NvidiaMiniCPM5-1B-nvidia-FlagOSMiniCPM5-1B-nvidia-FlagOS
HygonMiniCPM5-1B-hygon-FlagOSMiniCPM5-1B-hygon-FlagOS
MetaxMiniCPM5-1B-metax-FlagOSMiniCPM5-1B-metax-FlagOS
IluvatarMiniCPM5-1B-iluvatar-FlagOSMiniCPM5-1B-iluvatar-FlagOS
ZhenwuMiniCPM5-1B-zhenwu-FlagOSMiniCPM5-1B-zhenwu-FlagOS
MthreadsMiniCPM5-1B-mthreads-FlagOSMiniCPM5-1B-mthreads-FlagOS
KunlunxinMiniCPM5-1B-kunlunxin-FlagOSMiniCPM5-1B-kunlunxin-FlagOS
AscendMiniCPM5-1B-ascend-FlagOSMiniCPM5-1B-ascend-FlagOS
ARM-v9MiniCPM5-1B-Armv9-FlagOSMiniCPM5-1B-Armv9-FlagOS
从零开始
  • 依赖项:Python 3.12、GLIBC 2.39、GLIBCXX 3.4.33、CXXABI 1.3.15
Vllm 版本
安装 FlagOS 算子库

官方仓库:https://github.com/flagos-ai/FlagGems

pip install flag-gems==4.2.1rc0
pip install triton==3.5.1
启用加速功能

您可以通过在 vllm 执行推理的源代码中添加 flagGems 导入来启用 flagGems 加速。

import flag_gems
flag_gems.enable(record=True, once=True, path="/root/gems.txt")
vllm serve ${model_path} \
--trust-remote-code \
--dtype bfloat16 \
--enforce-eager \
--port ${Port} \
--served-model-name ${model_name} \
--gpu-memory-utilization 0.85
使用 FlagOS 统一多芯片后端插件

vllm-plugin-FL 是一款为 vLLM 推理/服务框架打造的插件。它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在各种硬件环境下的功能和性能。

使用 vllm-plugin-FL
厂商从零开始从 FlagRelease 获取
Nvidiavllm-plugin-FL/MiniCPM5-1BMiniCPM5-1B-ModelScopeMiniCPM5-1B-nvidia-FlagOS

桌面宠物

我们还提供了 OpenBMB/MiniCPM-Desk-Pet,这是一款由 MiniCPM5-1B 本地驱动的桌面宠物。它支持 Apple Silicon / NVIDIA GPU / CPU 运行路径,可与 Cursor、Claude Code 和 Codex 等编码代理协同工作,并支持 LoRA 角色切换。

MiniCPM 桌面宠物视频演示

局限性与负责任使用

MiniCPM5-1B 是一种基于训练数据中习得的统计模式生成内容的语言模型。它可能会产生不准确、有偏见或不安全的输出,因此在高风险场景中使用生成内容前,应进行审查和验证。

用户有责任评估输出内容、采取适当的安全措施,并遵守适用的法律、法规和平台政策。

许可证

本仓库和 MiniCPM 模型权重均基于 Apache-2.0 许可证发布。

引用

如果您认为我们的工作有价值,请引用我们的论文:

@article{minicpm4,
  title={Minicpm4: Ultra-efficient llms on end devices},
  author={MiniCPM, Team},
  journal={arXiv preprint arXiv:2506.07900},
  year={2025}
}