Q
Qwen/DeepPlanning
数据集数据集查看器文件和版本
下载使用量0

DeepPlanning:基于可验证约束的长程智能体规划基准测试

DeepPlanningBench 是一个富有挑战性的基准测试,用于评估大型语言模型(LLMs)在可验证约束条件下的长程智能体规划能力。它包含了逼真的多日旅行规划和多产品购物任务,这些任务需要主动获取信息、局部约束推理和全局约束优化。

🌐 网站:https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/

📄 论文:https://arxiv.org/abs/2601.18137

引言

尽管智能体评估已转向长程任务,但大多数基准测试仍侧重于局部的、步骤级的推理,而非需要真正规划能力的全局约束优化(例如时间和财务预算)。DeepPlanning 通过引入实用的长程智能体规划场景来弥补这一差距,这些场景需要:

  • 主动信息获取:通过 API 调用主动收集信息,以发现隐藏的环境状态
  • 局部约束推理:满足步骤级逻辑和特定要求
  • 全局约束优化:管理整体边界,如总预算上限和多日时间可行性

该基准测试包括两个主要领域:

  • 旅行规划:具有紧密耦合的时间、地点和预算约束的多日行程安排
  • 购物规划:组合优化问题,用于寻找最优产品,同时最大化折扣效用

引用

如果您觉得我们的工作有用,请考虑引用:

@article{deepplanning,
  title={DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints},
  author={
    Yinger Zhang and Shutong Jiang and Renhao Li and Jianhong Tu and Yang Su and 
    Lianghao Deng and Xudong Guo and Chenxu Lv and Junyang Lin
  },
  journal={arXiv preprint arXiv:2601.18137},
  year={2026}
}