GAIA 是一个基准测试集,旨在评估下一代大型语言模型(因添加工具、高效提示、搜索访问等功能而增强能力的大型语言模型)。
我们添加了防护机制,以防止机器人抓取数据集。请勿以可抓取的格式重新分享验证集或测试集。
GAIA 包含超过 450 个具有明确答案的非简单问题,解决这些问题需要不同程度的工具支持和自主性。因此,它被分为 3 个级别:级别 1 应该能被非常优秀的大型语言模型解决,而级别 3 则标志着模型能力的显著跃升。每个级别都分为完全公开的开发集(用于验证)和带有私有答案及元数据的测试集。
GAIA 排行榜可在此空间查看(https://huggingface.co/spaces/gaia-benchmark/leaderboard)。
问题包含在 metadata.jsonl 中。一些问题附带额外文件,这些文件可在同一文件夹中找到,其 ID 在 file_name 字段中给出。
更多详细信息目前可参见论文,不久后也将在此处提供。
为使 GAIA 与 HF datasets 4.x 版本兼容(该版本中基于代码的数据集加载器已被弃用),我们现在提供以 Parquet 格式存储的拆分文件,其结构与之前的 JSONL 结构一致:
metadata.parquet 包含完整的拆分数据,而诸如 metadata.level1.parquet 之类的配套文件保留了配置中公开的各级别视图。task_id、Question、Level、Final answer、file_name、file_path 以及结构体类型的 Annotator Metadata,因此现有处理流程可以继续无变化地使用。file_path 仍指向相对于仓库根目录的附件(例如,2023/test/<attachment-id>.pdf),确保能够离线访问 PDF、媒体文件和其他辅助文件。import os
from datasets import load_dataset
from huggingface_hub import snapshot_download
data_dir = snapshot_download(repo_id="gaia-benchmark/GAIA", repo_type="dataset")
dataset = load_dataset(data_dir, "2023_level1", split="test")
for example in dataset:
question = example["Question"]
file_path = os.path.join(data_dir, example["file_path"])