DeepPlanning：基于可验证约束的长程智能体规划基准测试

DeepPlanningBench 是一个富有挑战性的基准测试，用于评估大型语言模型（LLMs）在可验证约束条件下的长程智能体规划能力。它包含了逼真的多日旅行规划和多产品购物任务，这些任务需要主动获取信息、局部约束推理和全局约束优化。

🌐 网站：https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/

📄 论文：https://arxiv.org/abs/2601.18137

引言

尽管智能体评估已转向长程任务，但大多数基准测试仍侧重于局部的、步骤级的推理，而非需要真正规划能力的全局约束优化（例如时间和财务预算）。DeepPlanning 通过引入实用的长程智能体规划场景来弥补这一差距，这些场景需要：

主动信息获取：通过 API 调用主动收集信息，以发现隐藏的环境状态
局部约束推理：满足步骤级逻辑和特定要求
全局约束优化：管理整体边界，如总预算上限和多日时间可行性

该基准测试包括两个主要领域：

旅行规划：具有紧密耦合的时间、地点和预算约束的多日行程安排
购物规划：组合优化问题，用于寻找最优产品，同时最大化折扣效用

引用

如果您觉得我们的工作有用，请考虑引用：

@article{deepplanning,
  title={DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints},
  author={
    Yinger Zhang and Shutong Jiang and Renhao Li and Jianhong Tu and Yang Su and 
    Lianghao Deng and Xudong Guo and Chenxu Lv and Junyang Lin
  },
  journal={arXiv preprint arXiv:2601.18137},
  year={2026}
}

DeepPlanning：基于可验证约束的长程智能体规划基准测试

🌐 网站：https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/

📄 论文：https://arxiv.org/abs/2601.18137

引言

主动信息获取：通过 API 调用主动收集信息，以发现隐藏的环境状态
局部约束推理：满足步骤级逻辑和特定要求
全局约束优化：管理整体边界，如总预算上限和多日时间可行性

该基准测试包括两个主要领域：

旅行规划：具有紧密耦合的时间、地点和预算约束的多日行程安排
购物规划：组合优化问题，用于寻找最优产品，同时最大化折扣效用

引用

如果您觉得我们的工作有用，请考虑引用：

@article{deepplanning,
  title={DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints},
  author={
    Yinger Zhang and Shutong Jiang and Renhao Li and Jianhong Tu and Yang Su and 
    Lianghao Deng and Xudong Guo and Chenxu Lv and Junyang Lin
  },
  journal={arXiv preprint arXiv:2601.18137},
  year={2026}
}