GSM8K 数据集卡片

数据集描述

主页： https://openai.com/blog/grade-school-math/
代码库： https://github.com/openai/grade-school-math
论文： https://arxiv.org/abs/2110.14168
排行榜： [需要更多信息]
联系方式： [需要更多信息]

数据集摘要

GSM8K（小学高年级数学 8K）是一个包含 8.5K 道高质量、语言多样的小学高年级数学应用题数据集。该数据集旨在支持需要多步推理的基础数学问题的问答任务。

这些问题需要 2 到 8 步才能解决。
解决方案主要涉及使用基本算术运算（+ − ×÷）执行一系列基础计算以得出最终答案。
一个聪明的中学生应该能够解决所有问题：论文中提到，“问题所需的概念不超出初等代数水平，并且绝大多数问题无需显式定义变量即可解决。”
解决方案以自然语言形式提供，而非纯数学表达式。论文中提到：“我们认为这是最具普遍实用性的数据格式，并且我们期望它能揭示大型语言模型内部独白的特性。”

支持的任务与排行榜

该数据集通常用于测试语言建模中的逻辑与数学能力。它已被用于多项基准测试，包括 LLM Leaderboard。

语言

数据集中的文本为英文，相关的 BCP-47 代码为 en。

数据集结构

数据实例

在 main 配置下，每个实例包含一个字符串形式的小学水平数学问题，以及一个对应的答案字符串，答案包含多步推理过程和计算器标注（详见此处）。

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

对于socratic配置，每个实例包含一个小学水平数学问题的字符串、一个带有多步推理的对应答案字符串、计算器注释（解释参见此处）以及苏格拉底式子问题。

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

数据字段

main 和 socratic 配置及其各自的拆分集的数据字段相同。

question：小学数学题的题目字符串。
answer：question 的完整解答字符串。它包含多个推理步骤，带有计算器注释和最终的数字解。

数据拆分

名称	训练集	验证集
main	7473	1319
socratic	7473	1319

数据集创建

构建 rationale

[需要更多信息]

源数据

初始数据收集与规范化

根据论文附录 A：

我们最初通过在 Upwork（upwork.com）雇佣自由职业者收集了一组包含一千个问题和自然语言解答的起始数据集。随后，我们与 NLP 数据标注平台 Surge AI（surgehq.ai）合作，以扩大数据收集规模。在收集完完整数据集后，我们要求工作人员重新解答所有问题，且确保工作人员不会重新解答他们最初编写的问题。我们检查他们的最终答案是否与原始解答一致，对于存在分歧的问题，我们要么进行修正，要么予以丢弃。之后，我们对一小部分问题进行了另一轮一致性检查，发现 1.7% 的问题在工作人员之间仍然存在分歧。我们估计这部分问题包含致命错误或歧义。可能有更大比例的问题存在细微错误。

源语言生成者是谁？

[需要更多信息]

标注

标注过程

[需要更多信息]

标注者是谁？

Surge AI（surgehq.ai）

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集负责人

[需要更多信息]

许可信息

GSM8K 数据集基于 MIT 许可证授权。

引用信息

@article{cobbe2021gsm8k,
  title={Training Verifiers to Solve Math Word Problems},
  author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
  journal={arXiv preprint arXiv:2110.14168},
  year={2021}
}

贡献

感谢 @jon-tow 添加了此数据集。

GSM8K 数据集卡片

数据集描述

主页： https://openai.com/blog/grade-school-math/
代码库： https://github.com/openai/grade-school-math
论文： https://arxiv.org/abs/2110.14168
排行榜： [需要更多信息]
联系方式： [需要更多信息]

数据集摘要

这些问题需要 2 到 8 步才能解决。
解决方案主要涉及使用基本算术运算（+ − ×÷）执行一系列基础计算以得出最终答案。
一个聪明的中学生应该能够解决所有问题：论文中提到，“问题所需的概念不超出初等代数水平，并且绝大多数问题无需显式定义变量即可解决。”
解决方案以自然语言形式提供，而非纯数学表达式。论文中提到：“我们认为这是最具普遍实用性的数据格式，并且我们期望它能揭示大型语言模型内部独白的特性。”

支持的任务与排行榜

该数据集通常用于测试语言建模中的逻辑与数学能力。它已被用于多项基准测试，包括 LLM Leaderboard。

语言

数据集中的文本为英文，相关的 BCP-47 代码为 en。

数据集结构

数据实例

在 main 配置下，每个实例包含一个字符串形式的小学水平数学问题，以及一个对应的答案字符串，答案包含多步推理过程和计算器标注（详见此处）。

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

数据字段

main 和 socratic 配置及其各自的拆分集的数据字段相同。

question：小学数学题的题目字符串。
answer：question 的完整解答字符串。它包含多个推理步骤，带有计算器注释和最终的数字解。

数据拆分

名称	训练集	验证集
main	7473	1319
socratic	7473	1319

数据集创建

构建 rationale

[需要更多信息]

源数据

初始数据收集与规范化

根据论文附录 A：

我们最初通过在 Upwork（upwork.com）雇佣自由职业者收集了一组包含一千个问题和自然语言解答的起始数据集。随后，我们与 NLP 数据标注平台 Surge AI（surgehq.ai）合作，以扩大数据收集规模。在收集完完整数据集后，我们要求工作人员重新解答所有问题，且确保工作人员不会重新解答他们最初编写的问题。我们检查他们的最终答案是否与原始解答一致，对于存在分歧的问题，我们要么进行修正，要么予以丢弃。之后，我们对一小部分问题进行了另一轮一致性检查，发现 1.7% 的问题在工作人员之间仍然存在分歧。我们估计这部分问题包含致命错误或歧义。可能有更大比例的问题存在细微错误。

源语言生成者是谁？

[需要更多信息]

标注

标注过程

[需要更多信息]

标注者是谁？

Surge AI（surgehq.ai）

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集负责人

[需要更多信息]

许可信息

GSM8K 数据集基于 MIT 许可证授权。

引用信息

@article{cobbe2021gsm8k,
  title={Training Verifiers to Solve Math Word Problems},
  author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
  journal={arXiv preprint arXiv:2110.14168},
  year={2021}
}

贡献

感谢 @jon-tow 添加了此数据集。

GSM8K 数据集卡片

目录

数据集描述

数据集摘要

支持的任务与排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

构建 rationale

源数据

初始数据收集与规范化

源语言生成者是谁？

标注

标注过程

标注者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏差讨论

其他已知限制

其他信息

数据集负责人

许可信息

引用信息

贡献

GSM8K 数据集卡片

目录

数据集描述

数据集摘要

支持的任务与排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

构建 rationale

源数据

初始数据收集与规范化

源语言生成者是谁？

标注

标注过程

标注者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏差讨论

其他已知限制

其他信息

数据集负责人

许可信息

引用信息

贡献