🦤 Toucan-1.5M:

Toucan-1.5M 是目前规模最大的全合成工具智能体数据集，旨在推动智能体大型语言模型（agentic LLMs）的工具使用能力。该数据集包含超过150万条轨迹，这些轨迹是从495个真实世界模型上下文协议（MCPs）中合成而来，涵盖2000多种工具。通过利用真实的MCP环境，Toucan-1.5M 生成了多样化、逼真且具有挑战性的任务，这些任务需要使用多种工具，其轨迹涉及多轮次、多回合、顺序和并行工具调用的真实工具执行过程。在 Toucan-1.5M 上微调的模型在 BFCL V3 基准测试中表现优于更大规模的闭源模型，并在 MCP-Universe 基准测试中扩展了帕累托前沿。

📄 技术报告 - 探索 Toucan-1.5M 背后的方法论和技术细节
💾 GitHub 仓库 - 获取用于生成 Toucan-1.5M 的完整流水线
🤗 HF 数据集 - 完整数据集（您当前所在位置！）
🤖 模型 checkpoint - Qwen2.5-7B | Qwen2.5-14B | Qwen2.5-32B

Toucan-Pipeline

📄 数据集模式

Toucan-1.5M 的一个实例包含以下列：

uuid: 数据实例的唯一标识符。
subset: 指定用于生成轨迹的流水线的注释。选项：
1. single-turn-original: 仅应用核心合成数据生成流水线（阶段1至5）。
2. irrelevant: 在 single-turn-original 流水线基础上应用服务器随机打乱过程。
3. single-turn-diversify: 在 single-turn-original 流水线基础上应用问题多样化过程。
4. multi-turn: single-turn-original 和 single-turn-diversify 子集的多轮扩展。
messages: 使用用于生成的原始 LLM 智能体的聊天模板格式化的轨迹。系统提示包含采用 Hermes 格式的相关工具列表。
question: 为生成轨迹而精心设计的用户任务。
target_tools: 用作问题生成种子的 MCP 工具。如果涉及多个 MCP 服务器，我们使用 Server_Name::Tool_Name 格式；否则，仅显示 Tool_Name。
question_quality_assessment: 由 LLM 作为评判者进行的任务评估，涵盖质量、难度、真实性和独特性。
response_quality_assessment: 由 LLM 作为评判者进行的响应评估，涵盖完整性和简洁性。
metadata: 收集的原始 MCP 服务器数据（用作生成种子）以及相应的 LLM 注释。

我们包含由 Qwen3-32B、Kimi-K2 和 GPT-OSS-120B 生成的轨迹，每条轨迹都存储在单独的配置下。此外，我们提供了一个精心策划的 SFT 子集，该子集已准备好以 Swift 格式用于模型微调，其性能如下所示。

📊 数据集统计与性能

以下直方图展示了Toucan数据集的分析结果。子图（a）和（b）提供了每个实例的服务器数量和所需工具数量的统计信息，突出显示了Toucan在多服务器和多工具任务方面的全面覆盖。子图（c）和（d）表明，大多数任务的上下文中包含的工具数量多于目标工具，强调了工具选择的非平凡挑战。子图（e）显示了用户消息的令牌长度。子图（f）和（h）展示了任务的多轮对话特性，其特点是用户、智能体和工具之间存在长时间且多样化的交互。子图（g）表明，Toucan包含了单工具调用和并行工具调用，这增强了数据集在捕捉多样化智能体-工具交互模式方面的通用性。

hf_histo

下图显示了子集分布以及数据集在监督微调（SFT）下的性能。我们观察到，Toucan通过监督微调显著提升了基线模型的性能，并使较小模型在不同评估方面能够优于较大模型。

HF_perf

🧐 其他信息

许可证：本数据集基于Apache 2.0许可证发布。

个人身份信息（PII）声明：我们已尽最大努力扫描数据集，并使用基于规则的字符串替换来移除个人身份信息。

注意事项：数据收集于2025年6月至9月期间；因此，工具响应可能仅反映此期间的事件，这可能会给训练带来偏差。由于我们主要使用社区MCP服务器，数据可能会受到稳定性问题的影响，例如频繁的连接失败。我们仅过滤掉所有工具调用均未能产生有意义响应的轨迹，以保留用于训练错误处理能力的示例。

联系方式：如有问题，请通过电子邮件联系Zhangchen。

📚 引用

如果您发现本数据或代码对您的研究有帮助，请引用：

@misc{xu2025toucan,
      title={TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments}, 
      author={Zhangchen Xu and Adriana Meza Soria and Shawn Tan and Anurag Roy and Ashish Sunil Agrawal and Radha Poovendran and Rameswar Panda},
      year={2025},
      eprint={2510.01179},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2510.01179}, 
}