RubricHub

RubricHub 是一个大规模（约 11 万条数据）、多领域的数据集，为开放式生成任务提供高质量的基于评分标准的监督。该数据集通过自动化的粗到细评分标准生成框架构建而成，该框架整合了原则引导的合成、多模型聚合以及难度演进等技术，生成全面且具有高度区分度的评估标准，从而突破了粗略或静态评分标准的监督上限。在两阶段后训练流程（RuFT + RuRL）中利用 RubricHub，可显著提升开放式推理能力，使 Qwen3-14B 在 HealthBench 上达到 69.3 的最先进性能，超越了多个专有前沿模型。

📢 新闻

[2026-02-03] 🔥 训练方案（外部）现已发布。 关于 RuRL，请参考 RuscaRL（同步）或 verl-rubric（异步）。关于 RuFT/SFT，请参考 LlamaFactory。我们用于 RuRL 的 RubricHub 基于规则的评分器/ grader 集成（包括指令遵循规则）正在整理中，即将发布。
[2026-02-03] 🔥 数据合成代码已发布。 详见 data_synthesis_final/README.md。
[2026-01-17] RubricHub 数据集已发布，详见 https://huggingface.co/datasets/sojuL/RubricHub_v1。
[2026-01-12] RubricHub 论文已发布，详见 https://arxiv.org/abs/2601.08430。

模式

RuRL

prompt（字典列表）：为VeRL训练格式化的提示列表。
data_source（字符串）：指示数据来源的字符串。
ability（字符串）：此样本针对的主要能力或技能维度。
reward_model（字典）：与Verl兼容的奖励规范字典，定义如何评估响应，包括ground_truth、rubrics和style。
extra_info（字典）：辅助性VeRL格式元数据，镜像或扩展主要的prompt和reward_model。
Rubrics（字典列表）：每个字典包含明确的评分标准和相应的权重。

RuFT

source（字符串）：指示原始数据来源。
query（字符串）：呈现给模型的输入提示或指令。
answer（字符串）：模型生成的或与查询对应的参考响应。
sample_id（字符串）：用于跟踪和索引的每个数据样本的唯一标识符。
rubrics（字典列表）：一组评估准则，其中每个准则定义一个评分标准及其相关权重。
rubric_score（浮点数）：通过组合加权准则分数计算得出的答案综合分数。
rubric_judge_details（字典列表）：将准则应用于答案后产生的详细评估结果，包括每条准则的分数和判断。

引用

如果您使用此数据集，请引用：

@article{li2026rubrichub,
  title={RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation},
  author={Li, Sunzhu and Zhao, Jiale and Wei, Miteto and Ren, Huimin and Zhou, Yang and Yang, Jingwen and Liu, Shunyu and Zhang, Kaike and Chen, Wei},
  journal={arXiv preprint arXiv:2601.08430},
  year={2026}
}

RubricHub

📢 新闻

[2026-02-03] 🔥 训练方案（外部）现已发布。 关于 RuRL，请参考 RuscaRL（同步）或 verl-rubric（异步）。关于 RuFT/SFT，请参考 LlamaFactory。我们用于 RuRL 的 RubricHub 基于规则的评分器/ grader 集成（包括指令遵循规则）正在整理中，即将发布。

[2026-02-03] 🔥 数据合成代码已发布。 详见 data_synthesis_final/README.md。

[2026-01-17] RubricHub 数据集已发布，详见 https://huggingface.co/datasets/sojuL/RubricHub_v1。

[2026-01-12] RubricHub 论文已发布，详见 https://arxiv.org/abs/2601.08430。

模式

RuRL

prompt（字典列表）：为VeRL训练格式化的提示列表。

data_source（字符串）：指示数据来源的字符串。

ability（字符串）：此样本针对的主要能力或技能维度。

reward_model（字典）：与Verl兼容的奖励规范字典，定义如何评估响应，包括ground_truth、rubrics和style。

extra_info（字典）：辅助性VeRL格式元数据，镜像或扩展主要的prompt和reward_model。

Rubrics（字典列表）：每个字典包含明确的评分标准和相应的权重。

RuFT

source（字符串）：指示原始数据来源。

query（字符串）：呈现给模型的输入提示或指令。

answer（字符串）：模型生成的或与查询对应的参考响应。

sample_id（字符串）：用于跟踪和索引的每个数据样本的唯一标识符。

rubrics（字典列表）：一组评估准则，其中每个准则定义一个评分标准及其相关权重。

rubric_score（浮点数）：通过组合加权准则分数计算得出的答案综合分数。

rubric_judge_details（字典列表）：将准则应用于答案后产生的详细评估结果，包括每条准则的分数和判断。

引用

如果您使用此数据集，请引用：

@article{li2026rubrichub,
  title={RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation},
  author={Li, Sunzhu and Zhao, Jiale and Wei, Miteto and Ren, Huimin and Zhou, Yang and Yang, Jingwen and Liu, Shunyu and Zhang, Kaike and Chen, Wei},
  journal={arXiv preprint arXiv:2601.08430},
  year={2026}
}