DeepPlanningBench 是一个富有挑战性的基准测试,用于评估大型语言模型(LLMs)在可验证约束条件下的长程智能体规划能力。它包含了逼真的多日旅行规划和多产品购物任务,这些任务需要主动获取信息、局部约束推理和全局约束优化。
🌐 网站:https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
📄 论文:https://arxiv.org/abs/2601.18137
尽管智能体评估已转向长程任务,但大多数基准测试仍侧重于局部的、步骤级的推理,而非需要真正规划能力的全局约束优化(例如时间和财务预算)。DeepPlanning 通过引入实用的长程智能体规划场景来弥补这一差距,这些场景需要:
该基准测试包括两个主要领域:
如果您觉得我们的工作有用,请考虑引用:
@article{deepplanning,
title={DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints},
author={
Yinger Zhang and Shutong Jiang and Renhao Li and Jianhong Tu and Yang Su and
Lianghao Deng and Xudong Guo and Chenxu Lv and Junyang Lin
},
journal={arXiv preprint arXiv:2601.18137},
year={2026}
}