通过开放数据中心方法弥合多模态推理差距
MMFineReason 是一个大规模、高质量的多模态推理数据集,包含180万样本和51亿解题标记,其特点是具有从Qwen3-VL-235B-A22B-Thinking 提炼的详细推理标注。
</think>...</RichMediaReference> 中,最终答案置于 <RichMediaReference>...superscript: 中| 字段 | 描述 |
|---|---|
source | 源数据集名称(例如,"Geometry3K"、"MMR1"、"BMMR") |
id | 源数据集中的唯一样本标识符 |
original_question | 从源获取的原始问题文本 |
original_answer | 从源获取的原始答案 |
image | 视觉输入(PIL 图像) |
question | 经过清洗和标准化的英文问题 |
answer | 提取并标准化的经过验证的答案 |
qwen3vl_235b_instruct_caption | 由 Qwen3-VL-235B-A22B-Instruct 生成的密集视觉描述 |
qwen3vl_235b_thinking_response | 由 Qwen3-VL-235B-A22B-Thinking 生成的长文本思维链推理 |
qwen3vl_4b_pass_rate | 基于 Qwen3-VL-4B-Thinking 性能的难度代理指标(0.0 = 最难,1.0 = 最简单) |
is_consistent | 指示生成的推理是否与 ground truth 匹配的布尔值 |
consistency_analysis | 一致性验证的详细分析 |
数学领域(79.4%) 构成核心,主要来源于 MMR1(127 万),并辅以 WaltonColdStart、ViRL39K、Euclid30K、MMK12、Geo170K、Geo3K、mm-openr1 以及 WeMath 系列。
科学领域(13.8%) 以 VisualWebInstruct(15.73 万)和 BMMR(5.46 万)为核心,辅以 TQA、AI2D、Zebra-CoT 和 ScienceQA。
谜题/游戏领域(4.6%) 侧重于策略规划和抽象推理,主要包含 GameQA-140K(7.17 万),并辅以 Raven、VisualSphinx 和 PuzzleQA。
通用/OCR 领域(2.2%) 包含来自 LLaVA-CoT 的 3.87 万样本,作为正则化数据以保留广泛的视觉和 OCR 能力。
MMFineReason 的平均思维链长度达到 2,910 令牌,大约是 HoneyBee 的 2.7 倍,OpenMMReasoner 的 4.3 倍。其延伸的长尾(最大值:16,316)表明其具备处理高度复杂、多阶段推理任务的能力。在描述方面,MMFineReason 平均为 609 令牌,覆盖率达 100%,而 HoneyBee 平均为 299 令牌,覆盖率约为 58%。
语料库主要由 STEM 和图表内容组成(98.3%),其中几何图形、数学图表和逻辑谜题占 75.3%。自然图像(1.7%)涵盖了城市景观、室内场景和人类活动等多种类型,用于评估模型的泛化能力。
以科学为导向的数据集(ScienceQA、AI2D、TQA)由于图表清晰且采用选择题形式,表现出较高的通过率。谜题/游戏数据集(GameQA-140K、Raven、VisualSphinx)的通过率最低,需要多步骤的抽象推理。这种两极分化的分布模式反映出推理任务往往呈现全有或全无的结果。
MMFineReason-4B 性能超越 Qwen3-VL-8B-Thinking(73.9 对 72.5),而 MMFineReason-8B 则优于规模更大的 Qwen3-VL-30B-A3B-Thinking(75.7 对 74.5),并且性能超过 Gemini-2.5-Flash。在数学基准测试中,MFR-8B 在 DynaMath 上达到 83.4%(相比之下,Qwen3-VL-32B-Thinking 为 82.0%),在 MathVision 上达到 67.1%,比 HoneyBee-8B 和 OMR-7B 高出 23-30 个百分点。尽管图表训练数据极少,MFR-8B 在 CharXiv(90.8%)和 RealWorldQA(75.6%)上仍展现出良好的泛化能力。
SFT 在数学推理方面带来显著提升(例如,MathVision:8B 模型从 53.9% 提升至 67.6%)。RL 在理解类基准测试上增强了泛化能力(例如,AI2D:2B 模型从 78.5% 提升至 82.5%),但在数学基准测试上表现出结果波动。
移除 67% 的简单样本(通过率 = 1)后,性能提升了 0.6 个百分点(75.0 → 75.6)。仅使用最难的 7% 样本(123K 样本)进行训练,性能达到 73.3,以 14 倍更少的数据量超越了 Qwen3-VL-8B-Thinking(72.5)。这表明,具有挑战性的样本提供了大部分训练信号,而严格的筛选能够消除大规模数据集中的冗余。
ViRL39K(39K样本)仅使用2.4%的数据量,便保留了MMR1(150万样本)98.9%的性能。WeMath2.0-SFT仅用814个样本就达到了70.98%的性能,可与规模大1000倍的数据集相媲美。BMMR(80K样本,涵盖300多个学科)的性能优于规模更大的GameQA-140K(140K样本),这表明学科多样性比规模更为重要。
@misc{lin2026mmfinereasonclosingmultimodalreasoning,
title={MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods},
author={Honglin Lin and Zheng Liu and Yun Zhu and Chonghan Qin and Juekai Lin and Xiaoran Shang and Conghui He and Wentao Zhang and Lijun Wu},
year={2026},
eprint={2601.21821},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2601.21821},
}本数据集基于 Apache 2.0 许可协议 发布。各个源数据集可能有其自身的许可协议。
我们感谢 FineVision、MMR1、BMMR、Euclid30K、GameQA-140K、LLaVA-CoT、WeMath、ViRL39K 等数据集的创建者。同时,也感谢 Qwen 团队开发的强大 Qwen3-VL 系列模型。