复杂任务规划与动态分解

概述

纯 ReAct 循环（“观察→LLM 决定下一步→执行→重复”）缺乏预规划能力。从”问答工具”到”自主执行者”，规划是关键跨越。

三大规划范式

范式	核心	代表	适用
Plan-then-Execute	执行前完整规划	Plan-and-Solve, ReWOO	目标明确、环境稳定
RePlan	分段规划→执行→重规划	ReAct→RePlan, SwiftSage	环境动态
层次规划	高层策略→中层→底层	HiAgent, HTN	超长任务链

项目现状

已有能力： plan_sop.md（262 行执行流程）、[D]委托/[P]并行/[?]条件分支、VERIFY 子代理、3 次指数退避重试

空缺： 自动生成 plan、自动推断依赖、执行中重规划、规划粒度自适应、备选路径

扩展方向

规划漂移 — 长任务中逐步偏离目标（每步合理，累积偏航）
错误传播 — 单步错误被后续步骤放大级联
应对：规划锚点、milestone 验证、检查点验证、隔离执行

2026-06 论文速览

AdaPlanBench — 动态交互式基准评估 Agent 在逐步揭示的世界约束和用户约束下的自适应规划。最佳模型仅 67.75% 准确率，约束累积越多性能越差，用户约束比世界约束更具挑战性（2606.05622）
AutoLab — 36 个超长时域闭环优化任务评估 17 个前沿模型。关键发现：成功的首要预测因子不是首次尝试质量，而是持续迭代的持久性。大多数模型过早终止进展甚微（2606.05080）
DiG-Plan — 扩散引导工具图规划，解决标准自回归解码在工具规划中的过早承诺问题，在 TaskBench 上相比 AR 基线获得 10% 相对提升（2606.xxxxx）
TIDE — 模板引导的迭代发现框架，从”被动响应用户问题”转向”主动发现隐藏问题”。思维模板复用已有案例知识，在个人空间和代码仓库场景均显著超越基线（2606.04743）
ToolMaze — 评估工具故障时的动态路径发现和错误恢复能力。隐式语义失败导致 PRR 下降 ~37%，容错能力随规模提升但比基本执行慢 3.66 倍（2606.05806）
Beyond Prompt-Based Planning — MCP 原生图规划替代提示式规划，在医疗领域实现工程级任务分解，从 prompt engineering 走向结构化规划（2606.04494）
Planner Matters! — planner-centric 多 Agent 框架：planner（高层决策）+ actor（执行）+ memory manager，仅用轨迹级奖励优化 planner，验证了将模型容量集中在高层规划上的有效性（2605.02168）

孙雪健的数字花园

探索

agent-task-planning

复杂任务规划与动态分解

概述

三大规划范式

项目现状

推荐演进

扩展方向

2026-06 论文速览

关系图谱

目录

反向链接