A
Agent-Ark/Toucan-1.5M
数据集数据集查看器文件和版本
下载使用量0

🦤 Toucan-1.5M:

Toucan-1.5M 是目前规模最大的全合成工具智能体数据集,旨在推动智能体大型语言模型(agentic LLMs)的工具使用能力。该数据集包含超过150万条轨迹,这些轨迹是从495个真实世界模型上下文协议(MCPs)中合成而来,涵盖2000多种工具。通过利用真实的MCP环境,Toucan-1.5M 生成了多样化、逼真且具有挑战性的任务,这些任务需要使用多种工具,其轨迹涉及多轮次、多回合、顺序和并行工具调用的真实工具执行过程。在 Toucan-1.5M 上微调的模型在 BFCL V3 基准测试中表现优于更大规模的闭源模型,并在 MCP-Universe 基准测试中扩展了帕累托前沿。

  • 📄 技术报告 - 探索 Toucan-1.5M 背后的方法论和技术细节
  • 💾 GitHub 仓库 - 获取用于生成 Toucan-1.5M 的完整流水线
  • 🤗 HF 数据集 - 完整数据集(您当前所在位置!)
  • 🤖 模型 checkpoint - Qwen2.5-7B | Qwen2.5-14B | Qwen2.5-32B

Toucan-Pipeline

📄 数据集模式

Toucan-1.5M 的一个实例包含以下列:

  • uuid: 数据实例的唯一标识符。
  • subset: 指定用于生成轨迹的流水线的注释。选项:
    1. single-turn-original: 仅应用核心合成数据生成流水线(阶段1至5)。
    2. irrelevant: 在 single-turn-original 流水线基础上应用服务器随机打乱过程。
    3. single-turn-diversify: 在 single-turn-original 流水线基础上应用问题多样化过程。
    4. multi-turn: single-turn-original 和 single-turn-diversify 子集的多轮扩展。
  • messages: 使用用于生成的原始 LLM 智能体的聊天模板格式化的轨迹。系统提示包含采用 Hermes 格式的相关工具列表。
  • question: 为生成轨迹而精心设计的用户任务。
  • target_tools: 用作问题生成种子的 MCP 工具。如果涉及多个 MCP 服务器,我们使用 Server_Name::Tool_Name 格式;否则,仅显示 Tool_Name。
  • question_quality_assessment: 由 LLM 作为评判者进行的任务评估,涵盖质量、难度、真实性和独特性。
  • response_quality_assessment: 由 LLM 作为评判者进行的响应评估,涵盖完整性和简洁性。
  • metadata: 收集的原始 MCP 服务器数据(用作生成种子)以及相应的 LLM 注释。

我们包含由 Qwen3-32B、Kimi-K2 和 GPT-OSS-120B 生成的轨迹,每条轨迹都存储在单独的配置下。此外,我们提供了一个精心策划的 SFT 子集,该子集已准备好以 Swift 格式 用于模型微调,其性能如下所示。

📊 数据集统计与性能

以下直方图展示了Toucan数据集的分析结果。子图(a)和(b)提供了每个实例的服务器数量和所需工具数量的统计信息,突出显示了Toucan在多服务器和多工具任务方面的全面覆盖。子图(c)和(d)表明,大多数任务的上下文中包含的工具数量多于目标工具,强调了工具选择的非平凡挑战。子图(e)显示了用户消息的令牌长度。子图(f)和(h)展示了任务的多轮对话特性,其特点是用户、智能体和工具之间存在长时间且多样化的交互。子图(g)表明,Toucan包含了单工具调用和并行工具调用,这增强了数据集在捕捉多样化智能体-工具交互模式方面的通用性。

hf_histo

下图显示了子集分布以及数据集在监督微调(SFT)下的性能。我们观察到,Toucan通过监督微调显著提升了基线模型的性能,并使较小模型在不同评估方面能够优于较大模型。

HF_perf

🧐 其他信息

许可证:本数据集基于Apache 2.0许可证发布。

个人身份信息(PII)声明:我们已尽最大努力扫描数据集,并使用基于规则的字符串替换来移除个人身份信息。

注意事项:数据收集于2025年6月至9月期间;因此,工具响应可能仅反映此期间的事件,这可能会给训练带来偏差。由于我们主要使用社区MCP服务器,数据可能会受到稳定性问题的影响,例如频繁的连接失败。我们仅过滤掉所有工具调用均未能产生有意义响应的轨迹,以保留用于训练错误处理能力的示例。

联系方式:如有问题,请通过电子邮件联系Zhangchen。

📚 引用

如果您发现本数据或代码对您的研究有帮助,请引用:

@misc{xu2025toucan,
      title={TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments}, 
      author={Zhangchen Xu and Adriana Meza Soria and Shawn Tan and Anurag Roy and Ashish Sunil Agrawal and Radha Poovendran and Rameswar Panda},
      year={2025},
      eprint={2510.01179},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2510.01179}, 
}