s
sojuL/RubricHub_v1
数据集数据集查看器文件和版本
下载使用量0

RubricHub

论文 RubricHub GitHub 许可证

RubricHub 是一个大规模(约 11 万条数据)、多领域的数据集,为开放式生成任务提供高质量的基于评分标准的监督。该数据集通过自动化的粗到细评分标准生成框架构建而成,该框架整合了原则引导的合成、多模型聚合以及难度演进等技术,生成全面且具有高度区分度的评估标准,从而突破了粗略或静态评分标准的监督上限。在两阶段后训练流程(RuFT + RuRL)中利用 RubricHub,可显著提升开放式推理能力,使 Qwen3-14B 在 HealthBench 上达到 69.3 的最先进性能,超越了多个专有前沿模型。

📢 新闻

  • [2026-02-03] 🔥 训练方案(外部)现已发布。 关于 RuRL,请参考 RuscaRL(同步)或 verl-rubric(异步)。关于 RuFT/SFT,请参考 LlamaFactory。我们用于 RuRL 的 RubricHub 基于规则的评分器/ grader 集成(包括指令遵循规则)正在整理中,即将发布。
  • [2026-02-03] 🔥 数据合成代码已发布。 详见 data_synthesis_final/README.md。
  • [2026-01-17] RubricHub 数据集已发布,详见 https://huggingface.co/datasets/sojuL/RubricHub_v1。
  • [2026-01-12] RubricHub 论文已发布,详见 https://arxiv.org/abs/2601.08430。

模式

RuRL

  • prompt(字典列表):为VeRL训练格式化的提示列表。
  • data_source(字符串):指示数据来源的字符串。
  • ability(字符串):此样本针对的主要能力或技能维度。
  • reward_model(字典):与Verl兼容的奖励规范字典,定义如何评估响应,包括ground_truth、rubrics和style。
  • extra_info(字典):辅助性VeRL格式元数据,镜像或扩展主要的prompt和reward_model。
  • Rubrics(字典列表):每个字典包含明确的评分标准和相应的权重。

RuFT

  • source(字符串):指示原始数据来源。
  • query(字符串):呈现给模型的输入提示或指令。
  • answer(字符串):模型生成的或与查询对应的参考响应。
  • sample_id(字符串):用于跟踪和索引的每个数据样本的唯一标识符。
  • rubrics(字典列表):一组评估准则,其中每个准则定义一个评分标准及其相关权重。
  • rubric_score(浮点数):通过组合加权准则分数计算得出的答案综合分数。
  • rubric_judge_details(字典列表):将准则应用于答案后产生的详细评估结果,包括每条准则的分数和判断。

引用

如果您使用此数据集,请引用:

@article{li2026rubrichub,
  title={RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation},
  author={Li, Sunzhu and Zhao, Jiale and Wei, Miteto and Ren, Huimin and Zhou, Yang and Yang, Jingwen and Liu, Shunyu and Zhang, Kaike and Chen, Wei},
  journal={arXiv preprint arXiv:2601.08430},
  year={2026}
}