GSM8K(小学高年级数学 8K)是一个包含 8.5K 道高质量、语言多样的小学高年级数学应用题数据集。该数据集旨在支持需要多步推理的基础数学问题的问答任务。
该数据集通常用于测试语言建模中的逻辑与数学能力。 它已被用于多项基准测试,包括 LLM Leaderboard。
数据集中的文本为英文,相关的 BCP-47 代码为 en。
在 main 配置下,每个实例包含一个字符串形式的小学水平数学问题,以及一个对应的答案字符串,答案包含多步推理过程和计算器标注(详见 此处)。
{
'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}对于socratic配置,每个实例包含一个小学水平数学问题的字符串、一个带有多步推理的对应答案字符串、计算器注释(解释参见此处)以及苏格拉底式子问题。
{
'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}main 和 socratic 配置及其各自的拆分集的数据字段相同。
question:小学数学题的题目字符串。
answer:question 的完整解答字符串。它包含多个推理步骤,带有计算器注释和最终的数字解。
| 名称 | 训练集 | 验证集 |
|---|---|---|
| main | 7473 | 1319 |
| socratic | 7473 | 1319 |
[需要更多信息]
根据论文附录 A:
我们最初通过在 Upwork(upwork.com)雇佣自由职业者收集了一组包含一千个问题和自然语言解答的起始数据集。随后,我们与 NLP 数据标注平台 Surge AI(surgehq.ai)合作,以扩大数据收集规模。在收集完完整数据集后,我们要求工作人员重新解答所有问题,且确保工作人员不会重新解答他们最初编写的问题。我们检查他们的最终答案是否与原始解答一致,对于存在分歧的问题,我们要么进行修正,要么予以丢弃。之后,我们对一小部分问题进行了另一轮一致性检查,发现 1.7% 的问题在工作人员之间仍然存在分歧。我们估计这部分问题包含致命错误或歧义。可能有更大比例的问题存在细微错误。
[需要更多信息]
[需要更多信息]
Surge AI(surgehq.ai)
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
GSM8K 数据集基于 MIT 许可证 授权。
@article{cobbe2021gsm8k,
title={Training Verifiers to Solve Math Word Problems},
author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
journal={arXiv preprint arXiv:2110.14168},
year={2021}
}感谢 @jon-tow 添加了此数据集。