GAIA 数据集

GAIA 是一个基准测试集，旨在评估下一代大型语言模型（因添加工具、高效提示、搜索访问等功能而增强能力的大型语言模型）。

我们添加了防护机制，以防止机器人抓取数据集。请勿以可抓取的格式重新分享验证集或测试集。

数据与排行榜

GAIA 包含超过 450 个具有明确答案的非简单问题，解决这些问题需要不同程度的工具支持和自主性。因此，它被分为 3 个级别：级别 1 应该能被非常优秀的大型语言模型解决，而级别 3 则标志着模型能力的显著跃升。每个级别都分为完全公开的开发集（用于验证）和带有私有答案及元数据的测试集。

GAIA 排行榜可在此空间查看（https://huggingface.co/spaces/gaia-benchmark/leaderboard）。

问题包含在 metadata.jsonl 中。一些问题附带额外文件，这些文件可在同一文件夹中找到，其 ID 在 file_name 字段中给出。

更多详细信息目前可参见论文，不久后也将在此处提供。

数据集格式更新（2025 年 10 月）

为使 GAIA 与 HF datasets 4.x 版本兼容（该版本中基于代码的数据集加载器已被弃用），我们现在提供以 Parquet 格式存储的拆分文件，其结构与之前的 JSONL 结构一致：

metadata.parquet 包含完整的拆分数据，而诸如 metadata.level1.parquet 之类的配套文件保留了配置中公开的各级别视图。
列仍为 task_id、Question、Level、Final answer、file_name、file_path 以及结构体类型的 Annotator Metadata，因此现有处理流程可以继续无变化地使用。
file_path 仍指向相对于仓库根目录的附件（例如，2023/test/<attachment-id>.pdf），确保能够离线访问 PDF、媒体文件和其他辅助文件。

加载数据集

import os

from datasets import load_dataset
from huggingface_hub import snapshot_download

data_dir = snapshot_download(repo_id="gaia-benchmark/GAIA", repo_type="dataset")
dataset = load_dataset(data_dir, "2023_level1", split="test")
for example in dataset:
    question = example["Question"]
    file_path = os.path.join(data_dir, example["file_path"])

数据与排行榜

问题包含在 metadata.jsonl 中。一些问题附带额外文件，这些文件可在同一文件夹中找到，其 ID 在 file_name 字段中给出。

更多详细信息目前可参见论文，不久后也将在此处提供。

数据集格式更新（2025 年 10 月）

metadata.parquet 包含完整的拆分数据，而诸如 metadata.level1.parquet 之类的配套文件保留了配置中公开的各级别视图。

列仍为 task_id、Question、Level、Final answer、file_name、file_path 以及结构体类型的 Annotator Metadata，因此现有处理流程可以继续无变化地使用。

file_path 仍指向相对于仓库根目录的附件（例如，2023/test/<attachment-id>.pdf），确保能够离线访问 PDF、媒体文件和其他辅助文件。

加载数据集

import os

from datasets import load_dataset
from huggingface_hub import snapshot_download

data_dir = snapshot_download(repo_id="gaia-benchmark/GAIA", repo_type="dataset")
dataset = load_dataset(data_dir, "2023_level1", split="test")
for example in dataset:
    question = example["Question"]
    file_path = os.path.join(data_dir, example["file_path"])