复杂任务规划与动态分解
概述
纯 ReAct 循环(“观察→LLM 决定下一步→执行→重复”)缺乏预规划能力。从”问答工具”到”自主执行者”,规划是关键跨越。
三大规划范式
| 范式 | 核心 | 代表 | 适用 |
|---|---|---|---|
| Plan-then-Execute | 执行前完整规划 | Plan-and-Solve, ReWOO | 目标明确、环境稳定 |
| RePlan | 分段规划→执行→重规划 | ReAct→RePlan, SwiftSage | 环境动态 |
| 层次规划 | 高层策略→中层→底层 | HiAgent, HTN | 超长任务链 |
项目现状
已有能力: plan_sop.md(262 行执行流程)、[D]委托/[P]并行/[?]条件分支、VERIFY 子代理、3 次指数退避重试
空缺: 自动生成 plan、自动推断依赖、执行中重规划、规划粒度自适应、备选路径
推荐演进
- Phase 1 — 自动规划生成(LLM 输出结构化 plan → plan.md)
- Phase 2 — 执行中重规划(tool_after_callback 检测失败触发 replan)
- Phase 3 — 层次规划 + 粒度自适应
扩展方向
- 规划漂移 — 长任务中逐步偏离目标(每步合理,累积偏航)
- 错误传播 — 单步错误被后续步骤放大级联
- 应对:规划锚点、milestone 验证、检查点验证、隔离执行
2026-06 论文速览
- AdaPlanBench — 动态交互式基准评估 Agent 在逐步揭示的世界约束和用户约束下的自适应规划。最佳模型仅 67.75% 准确率,约束累积越多性能越差,用户约束比世界约束更具挑战性(2606.05622)
- AutoLab — 36 个超长时域闭环优化任务评估 17 个前沿模型。关键发现:成功的首要预测因子不是首次尝试质量,而是持续迭代的持久性。大多数模型过早终止进展甚微(2606.05080)
- DiG-Plan — 扩散引导工具图规划,解决标准自回归解码在工具规划中的过早承诺问题,在 TaskBench 上相比 AR 基线获得 10% 相对提升(2606.xxxxx)
- TIDE — 模板引导的迭代发现框架,从”被动响应用户问题”转向”主动发现隐藏问题”。思维模板复用已有案例知识,在个人空间和代码仓库场景均显著超越基线(2606.04743)
- ToolMaze — 评估工具故障时的动态路径发现和错误恢复能力。隐式语义失败导致 PRR 下降 ~37%,容错能力随规模提升但比基本执行慢 3.66 倍(2606.05806)
- Beyond Prompt-Based Planning — MCP 原生图规划替代提示式规划,在医疗领域实现工程级任务分解,从 prompt engineering 走向结构化规划(2606.04494)
- Planner Matters! — planner-centric 多 Agent 框架:planner(高层决策)+ actor(执行)+ memory manager,仅用轨迹级奖励优化 planner,验证了将模型容量集中在高层规划上的有效性(2605.02168)
相关页面:main-tool-model agent-collaboration-communication agent-evaluation-framework