MMFineReason

通过开放数据中心方法弥合多模态推理差距

Model Performance Comparison — *数学推理和多模态理解基准测试的平均得分。*

📖 概述

MMFineReason 是一个大规模、高质量的多模态推理数据集，包含180万样本和51亿解题标记，其特点是具有从Qwen3-VL-235B-A22B-Thinking 提炼的详细推理标注。

🎯 核心亮点

180万高质量样本，含51亿解题标记
长文本思维链（CoT）：平均推理长度达2,910标记（为HoneyBee的2.7倍，OpenMMReasoner的4.3倍）
100%图像描述覆盖率：密集视觉描述平均609标记
多领域覆盖：数学（79.4%）、科学（13.8%）、谜题/游戏（4.6%）、通用/OCR（2.2%）
业界领先性能：基于该数据集训练的模型在同尺寸模型中实现了最先进的性能

🏗️ 数据构建流程

Data Construction Pipeline — *MMFineReason数据流程与两阶段训练。*

第一阶段：数据收集与标准化

从开源社区聚合多样化的多模态数据集
翻译非英文问题；去除噪声和无关内容
将浅层提示重写为鼓励推理的指令
过滤非推理任务；清理损坏/过大的图像

阶段 2：推理蒸馏

教师模型：Qwen3-VL-235B-A22B-Thinking
四阶段框架：信息提取→问题构建→解决方案执行→验证
输出：推理内容置于 </think>...</RichMediaReference> 中，最终答案置于 <RichMediaReference>...superscript: 中
标题生成：通过 Qwen3-VL-235B-A22B-Thinking 实现 100% 覆盖

阶段 3：数据筛选

质量筛选：模板/长度验证、n-gram 去重、正确性校验（约移除 20%）
难度筛选：以 Qwen3-VL-4B-Thinking 的通过率作为代理指标
- MMFineReason-123K：通过率 = 0（最难的 7%）
- MMFineReason-586K：通过率 ≠ 1（具有挑战性的 33%）

🔧 数据模式

字段	描述
`source`	源数据集名称（例如，"Geometry3K"、"MMR1"、"BMMR"）
`id`	源数据集中的唯一样本标识符
`original_question`	从源获取的原始问题文本
`original_answer`	从源获取的原始答案
`image`	视觉输入（PIL 图像）
`question`	经过清洗和标准化的英文问题
`answer`	提取并标准化的经过验证的答案
`qwen3vl_235b_instruct_caption`	由 Qwen3-VL-235B-A22B-Instruct 生成的密集视觉描述
`qwen3vl_235b_thinking_response`	由 Qwen3-VL-235B-A22B-Thinking 生成的长文本思维链推理
`qwen3vl_4b_pass_rate`	基于 Qwen3-VL-4B-Thinking 性能的难度代理指标（0.0 = 最难，1.0 = 最简单）
`is_consistent`	指示生成的推理是否与 ground truth 匹配的布尔值
`consistency_analysis`	一致性验证的详细分析

🗂️ 数据集构成

Dataset Composition — *MMFineReason-1.8M 的数据集构成。*

数学领域（79.4%） 构成核心，主要来源于 MMR1（127 万），并辅以 WaltonColdStart、ViRL39K、Euclid30K、MMK12、Geo170K、Geo3K、mm-openr1 以及 WeMath 系列。

科学领域（13.8%） 以 VisualWebInstruct（15.73 万）和 BMMR（5.46 万）为核心，辅以 TQA、AI2D、Zebra-CoT 和 ScienceQA。

谜题/游戏领域（4.6%） 侧重于策略规划和抽象推理，主要包含 GameQA-140K（7.17 万），并辅以 Raven、VisualSphinx 和 PuzzleQA。

通用/OCR 领域（2.2%） 包含来自 LLaVA-CoT 的 3.87 万样本，作为正则化数据以保留广泛的视觉和 OCR 能力。

📊 数据集统计信息

与其他数据集的令牌长度对比

Token Length Statistics Comparison — *不同数据集的令牌长度统计对比。*

Token Length Distribution — *令牌长度分析。（左）内部领域分布；（中）外部思维链对比；（右）描述丰富度对比。*

MMFineReason 的平均思维链长度达到 2,910 令牌，大约是 HoneyBee 的 2.7 倍，OpenMMReasoner 的 4.3 倍。其延伸的长尾（最大值：16,316）表明其具备处理高度复杂、多阶段推理任务的能力。在描述方面，MMFineReason 平均为 609 令牌，覆盖率达 100%，而 HoneyBee 平均为 299 令牌，覆盖率约为 58%。

🖼️ 图像类别分布

Image Category Statistics — *按组别（STEM 与自然）划分的图像类别统计。*

语料库主要由 STEM 和图表内容组成（98.3%），其中几何图形、数学图表和逻辑谜题占 75.3%。自然图像（1.7%）涵盖了城市景观、室内场景和人类活动等多种类型，用于评估模型的泛化能力。

📈 难度分布

Pass Rate Distribution — *各子数据集的通过率分布，按平均通过率降序排列。*

以科学为导向的数据集（ScienceQA、AI2D、TQA）由于图表清晰且采用选择题形式，表现出较高的通过率。谜题/游戏数据集（GameQA-140K、Raven、VisualSphinx）的通过率最低，需要多步骤的抽象推理。这种两极分化的分布模式反映出推理任务往往呈现全有或全无的结果。

📊 基准测试结果

主要结果

Main Benchmark Results — *MMFineReason 模型与当前最先进模型的对比。*

MMFineReason-4B 性能超越 Qwen3-VL-8B-Thinking（73.9 对 72.5），而 MMFineReason-8B 则优于规模更大的 Qwen3-VL-30B-A3B-Thinking（75.7 对 74.5），并且性能超过 Gemini-2.5-Flash。在数学基准测试中，MFR-8B 在 DynaMath 上达到 83.4%（相比之下，Qwen3-VL-32B-Thinking 为 82.0%），在 MathVision 上达到 67.1%，比 HoneyBee-8B 和 OMR-7B 高出 23-30 个百分点。尽管图表训练数据极少，MFR-8B 在 CharXiv（90.8%）和 RealWorldQA（75.6%）上仍展现出良好的泛化能力。

SFT 与 RL 训练分析

SFT vs RL Results — *MFR-SFT 和 MFR-Thinking 模型与基础 Qwen3-VL 变体的对比结果。*

SFT 在数学推理方面带来显著提升（例如，MathVision：8B 模型从 53.9% 提升至 67.6%）。RL 在理解类基准测试上增强了泛化能力（例如，AI2D：2B 模型从 78.5% 提升至 82.5%），但在数学基准测试上表现出结果波动。

🔬 消融实验

数据效率（“少即是多”）

Data Efficiency Analysis — *不同数据规模和模型大小的性能对比。*

移除 67% 的简单样本（通过率 = 1）后，性能提升了 0.6 个百分点（75.0 → 75.6）。仅使用最难的 7% 样本（123K 样本）进行训练，性能达到 73.3，以 14 倍更少的数据量超越了 Qwen3-VL-8B-Thinking（72.5）。这表明，具有挑战性的样本提供了大部分训练信号，而严格的筛选能够消除大规模数据集中的冗余。

子数据集性能

Sub-Dataset Performance Analysis — *蒸馏子数据集的性能概况（x轴：样本数量，对数刻度）。*

ViRL39K（39K样本）仅使用2.4%的数据量，便保留了MMR1（150万样本）98.9%的性能。WeMath2.0-SFT仅用814个样本就达到了70.98%的性能，可与规模大1000倍的数据集相媲美。BMMR（80K样本，涵盖300多个学科）的性能优于规模更大的GameQA-140K（140K样本），这表明学科多样性比规模更为重要。

🏆 训练模型

模型	参数规模	平均得分	HuggingFace
MMFineReason-2B	2B	65.3	🤗 链接
MMFineReason-4B	4B	73.9	🤗 链接
MMFineReason-8B	8B	75.7	🤗 链接

📚 引用

@misc{lin2026mmfinereasonclosingmultimodalreasoning,
      title={MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods}, 
      author={Honglin Lin and Zheng Liu and Yun Zhu and Chonghan Qin and Juekai Lin and Xiaoran Shang and Conghui He and Wentao Zhang and Lijun Wu},
      year={2026},
      eprint={2601.21821},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21821}, 
}

📄 许可协议

本数据集基于 Apache 2.0 许可协议发布。各个源数据集可能有其自身的许可协议。

🤝 致谢

我们感谢 FineVision、MMR1、BMMR、Euclid30K、GameQA-140K、LLaVA-CoT、WeMath、ViRL39K 等数据集的创建者。同时，也感谢 Qwen 团队开发的强大 Qwen3-VL 系列模型。