复杂任务规划与动态分解

概述

纯 ReAct 循环(“观察→LLM 决定下一步→执行→重复”)缺乏预规划能力。从”问答工具”到”自主执行者”,规划是关键跨越。

三大规划范式

范式核心代表适用
Plan-then-Execute执行前完整规划Plan-and-Solve, ReWOO目标明确、环境稳定
RePlan分段规划→执行→重规划ReAct→RePlan, SwiftSage环境动态
层次规划高层策略→中层→底层HiAgent, HTN超长任务链

项目现状

已有能力: plan_sop.md(262 行执行流程)、[D]委托/[P]并行/[?]条件分支、VERIFY 子代理、3 次指数退避重试

空缺: 自动生成 plan、自动推断依赖、执行中重规划、规划粒度自适应、备选路径

推荐演进

  • Phase 1 — 自动规划生成(LLM 输出结构化 plan → plan.md)
  • Phase 2 — 执行中重规划(tool_after_callback 检测失败触发 replan)
  • Phase 3 — 层次规划 + 粒度自适应

扩展方向

  • 规划漂移 — 长任务中逐步偏离目标(每步合理,累积偏航)
  • 错误传播 — 单步错误被后续步骤放大级联
  • 应对:规划锚点、milestone 验证、检查点验证、隔离执行

2026-06 论文速览

  • AdaPlanBench — 动态交互式基准评估 Agent 在逐步揭示的世界约束和用户约束下的自适应规划。最佳模型仅 67.75% 准确率,约束累积越多性能越差,用户约束比世界约束更具挑战性(2606.05622)
  • AutoLab — 36 个超长时域闭环优化任务评估 17 个前沿模型。关键发现:成功的首要预测因子不是首次尝试质量,而是持续迭代的持久性。大多数模型过早终止进展甚微(2606.05080)
  • DiG-Plan — 扩散引导工具图规划,解决标准自回归解码在工具规划中的过早承诺问题,在 TaskBench 上相比 AR 基线获得 10% 相对提升(2606.xxxxx)
  • TIDE — 模板引导的迭代发现框架,从”被动响应用户问题”转向”主动发现隐藏问题”。思维模板复用已有案例知识,在个人空间和代码仓库场景均显著超越基线(2606.04743)
  • ToolMaze — 评估工具故障时的动态路径发现和错误恢复能力。隐式语义失败导致 PRR 下降 ~37%,容错能力随规模提升但比基本执行慢 3.66 倍(2606.05806)
  • Beyond Prompt-Based Planning — MCP 原生图规划替代提示式规划,在医疗领域实现工程级任务分解,从 prompt engineering 走向结构化规划(2606.04494)
  • Planner Matters! — planner-centric 多 Agent 框架:planner(高层决策)+ actor(执行)+ memory manager,仅用轨迹级奖励优化 planner,验证了将模型容量集中在高层规划上的有效性(2605.02168)

相关页面:main-tool-model agent-collaboration-communication agent-evaluation-framework