Toucan-1.5M 是目前规模最大的全合成工具智能体数据集,旨在推动智能体大型语言模型(agentic LLMs)的工具使用能力。该数据集包含超过150万条轨迹,这些轨迹是从495个真实世界模型上下文协议(MCPs)中合成而来,涵盖2000多种工具。通过利用真实的MCP环境,Toucan-1.5M 生成了多样化、逼真且具有挑战性的任务,这些任务需要使用多种工具,其轨迹涉及多轮次、多回合、顺序和并行工具调用的真实工具执行过程。在 Toucan-1.5M 上微调的模型在 BFCL V3 基准测试中表现优于更大规模的闭源模型,并在 MCP-Universe 基准测试中扩展了帕累托前沿。

Toucan-1.5M 的一个实例包含以下列:
Server_Name::Tool_Name 格式;否则,仅显示 Tool_Name。我们包含由 Qwen3-32B、Kimi-K2 和 GPT-OSS-120B 生成的轨迹,每条轨迹都存储在单独的配置下。此外,我们提供了一个精心策划的 SFT 子集,该子集已准备好以 Swift 格式 用于模型微调,其性能如下所示。
以下直方图展示了Toucan数据集的分析结果。子图(a)和(b)提供了每个实例的服务器数量和所需工具数量的统计信息,突出显示了Toucan在多服务器和多工具任务方面的全面覆盖。子图(c)和(d)表明,大多数任务的上下文中包含的工具数量多于目标工具,强调了工具选择的非平凡挑战。子图(e)显示了用户消息的令牌长度。子图(f)和(h)展示了任务的多轮对话特性,其特点是用户、智能体和工具之间存在长时间且多样化的交互。子图(g)表明,Toucan包含了单工具调用和并行工具调用,这增强了数据集在捕捉多样化智能体-工具交互模式方面的通用性。

下图显示了子集分布以及数据集在监督微调(SFT)下的性能。我们观察到,Toucan通过监督微调显著提升了基线模型的性能,并使较小模型在不同评估方面能够优于较大模型。

许可证:本数据集基于Apache 2.0许可证发布。
个人身份信息(PII)声明:我们已尽最大努力扫描数据集,并使用基于规则的字符串替换来移除个人身份信息。
注意事项:数据收集于2025年6月至9月期间;因此,工具响应可能仅反映此期间的事件,这可能会给训练带来偏差。由于我们主要使用社区MCP服务器,数据可能会受到稳定性问题的影响,例如频繁的连接失败。我们仅过滤掉所有工具调用均未能产生有意义响应的轨迹,以保留用于训练错误处理能力的示例。
联系方式:如有问题,请通过电子邮件联系Zhangchen。
如果您发现本数据或代码对您的研究有帮助,请引用:
@misc{xu2025toucan,
title={TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments},
author={Zhangchen Xu and Adriana Meza Soria and Shawn Tan and Anurag Roy and Ashish Sunil Agrawal and Radha Poovendran and Rameswar Panda},
year={2025},
eprint={2510.01179},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2510.01179},
}