课题二十六:Agent 自我演进
优先级: 观察中
核心问题
Agent 能否像生物一样,在与环境交互中自主进化——不是靠人类换模型、改 prompt,而是自己提升能力?
当前 Agent 的能力提升完全依赖人类:人类发现不足 → 人类修改 prompt/更换模型/调整架构 → Agent 被动升级。如果 Agent 能在运行时自主学习、修正、扩展,将彻底改变开发范式。
关键维度
1. 自我学习(从经验中提炼)
- Agent 能否从成功/失败案例中自动提取经验,存入记忆库?
- 能否抽象出模式(“这类问题应该这么做”),而非记住单次结果?
- 前体条件:必须有可读写的长期记忆(课题三)、能自我评判好坏(课题二十二)
2. 自我修正(行为模式调整)
- Agent 能否检测到自己行为模式的系统性缺陷?
- 检测到后能否自动调整策略(而非每次等人修改 prompt)?
- 与 RePlan(课题六)的区别:RePlan 是任务级的重规划,自我修正是能力级的行为调整
- 核心挑战:如何区分”这次运气不好”和”我这个方法有问题”
3. 自我扩展(工具与能力边界)
- Agent 能否自主发现并集成新工具,不等人配好?
- 能否将已验证的能力固化为可复用的”技能”?
- 与课题七(工具学习)的关系:课题七侧重”学用已有工具”,自我扩展侧重”创造/集成新能力”
4. 自我适应(环境迁移)
- 换到新领域/新环境,Agent 能否自动适配?
- 迁移学习 vs 从零学习——能否判断什么时候该复用旧经验,什么时候该抛弃?
5. 自我修复与健康管理
Agent 也会”生病”——上下文被污染、记忆腐化、SOP 僵化、规划漂移、幻觉传染——且 Agent 通常没有自我感知能力,不像人能感觉到”哪里不对”。
常见病症:
| 病 | 症状 | 类比 |
|---|---|---|
| 上下文污染 | 用户/第三方注入恶意指令,Agent 被 hijack | 中毒 |
| 记忆腐化 | 错误经验写入长期记忆,反复走偏 | 慢性病 |
| SOP 僵化 | 固化的工作流不再适用,但 Agent 继续执行 | 习惯性错误 |
| 规划漂移 | 逐步偏离原始目标,每步看似合理 | 走神→迷路 |
| 幻觉传染 | 某一步产生幻觉,后续在其基础上继续错 | 以讹传讹 |
关键特征:
- 无自我感知:Agent 不会主动说”我好像出问题了”
- 渐进恶化:多数”病”是累积的,没有单点触发告警
- 病因难追溯:出问题时难以定位”哪一步开始坏的”
可能的应对方向:
- 健康检查接口:Agent 暴露可调用的健康状态接口,外部监控定期检测(类比:人的体检)
- 行为基线:记录 Agent 正常行为模式,偏离基线触发告警
- 隔离诊断:怀疑某部分异常时,在隔离环境复现,不影响线上运行
- 回滚机制:记忆/配置快照 → 检测到”生病” → 回滚到上一个已知健康状态
- 自愈流程:健康检查发现问题 → 诊断病因 → 修复(清理上下文、修正记忆、重置 SOP)→ 验证恢复
6. 元认知与”被困”感知
Agent 没有”我卡住了”的自我感知。人在多次失败后会感到挫败——这是一个元认知信号,触发策略切换或放弃。Agent 每次失败后都”理性地”选择下一动作,但缺乏累积失败感知,无法做出”此路期望收益已为负”的判断。
“竭尽全力”指标——一种可工程化的设计:
Agent 接受任务 → 设定初始预算
│
尝试 → 失败 → 失败计数 +1,消耗预算
│ ↓
│ 激活更多资源(更多推理 token、更慢但更强的模型、更深搜索)
│
再次尝试 → 失败 → 失败计数 +2,消耗更多预算
│ ↓
│ 继续加码...直到预算耗尽
│
失败计数 = N → 预算耗尽 → Agent 停止工作,承认错误
关键机制:
- 失败计数 ≠ 简单计数器,而是累积的”努力-成本”指标——每多一次失败,投入的资源(推理深度、模型大小、搜索广度)自动升级
- 成本阈值是硬边界——时间消耗、物理性能、token 预算到达上限时,Agent 必须承认错误,不允许无限坚持
- 认输是设计目标而非 bug——在一个确定的时间点给出”我解决不了这个问题”是负责任的行为,比产出不可靠结果更好
与现有机制的关系:
- 区别于硬编码的”重试 3 次”——这个指标的阈值是动态的,取决于问题的复杂度、可用资源和历史成功率
- 区别于 RePlan(课题六)——RePlan 是在同一个任务内切换路径,“被困”感知是判断是否应该终止整个任务
- 区别于自我验证(课题二十二)——验证只在单步输出后检查正确性,不涉及对”整体任务的可解性”的元判断
待解决问题:
| # | 问题 | 描述 |
|---|---|---|
| 1 | 阈值设定 | ”竭尽全力”指标的上限怎么定?设太低过早放弃,设太高浪费资源。是否应该随任务历史成功率动态调整? |
| 2 | 加码策略 | 每次失败后资源升级的幅度——线性增长、指数退避、还是基于问题复杂度自适应? |
| 3 | 问题难度感知 | 简单任务重试 3 次就该放弃,复杂任务可以尝试更多。但 Agent 如何在一开始就预估难度? |
| 4 | 失败后行为链 | 承认错误后——彻底停止、请求人类帮助、降级到最简方案继续、还是切换到完全不同的方法?不同场景应该有不同的”失败后协议” |
经典理论映射(心理学):
习得性无助(Seligman, 1967)—— 动物在反复遭受无法控制的负面刺激后,即使后来有机会逃脱也不再尝试。这与我们设计的”竭尽全力”指标恰好是同一枚硬币的两面:人类/动物的习得性无助是”放弃得太早”的心理学解释,而 Agent 的”被困感知”机制需要在两者之间找到正确的平衡——既不像习得性无助那样过早认输,也不像 Agent 现在这样永远不认输。Seligman 后来的研究发现,习得性无助的关键不是失败本身,而是**“对结果不可控的感知”**——这直接回答了”Agent 何时该放弃”的问题:不是失败了 X 次,而是 Agent 判断”当前问题超出了我的可控范围”。
操作条件反射(Skinner, 1938)—— 行为通过奖惩被塑造,强化的频率和时机决定了行为固化的速度。Agent 从成功/失败中学习经验(工具使用偏好、策略选择)本质上就是操作条件反射。Skinner 的关键发现是可变比率强化(不定期奖励)形成的习惯最难消退——这对 Agent 记忆系统中”什么样的经验值得保留”有直接设计启示:偶尔成功的经验比一直成功的经验更值得保留,因为它可能代表了一种在特定条件下的有价值策略。
经典理论映射(脑科学):
前扣带回(ACC)冲突监测(Botvinick et al., 2004)—— 大脑的 ACC 持续监测当前反应与目标之间的冲突程度。当检测到冲突(多种不兼容的反应倾向同时存在),ACC 向 prefrontal 皮层发送信号,触发认知控制加码。这就是大脑的”我卡住了”机制:不是在等失败计数器到 N,而是感知到”当前的输入模式不匹配任何已知响应模式”。这对”被困感知”的设计有直接指导——不应该统计失败次数,而应该检测 Agent 内部的不确定性/冲突程度。当 Agent 同时认为多种可能策略都不靠谱时,就该触发”竭尽全力”加码或认输。
去甲肾上腺素(LC-NE)系统与利用-探索权衡(Aston-Jones & Cohen, 2005)—— 脑干蓝斑核的去甲肾上腺素系统调节两个模式之间的平衡:专注利用当前策略(phasic mode)和广泛探索新可能(tonic mode)。当任务表现良好时,NE 系统维持 phasic 模式让你专注;当奖励变少、不确定性升高时,切换到 tonic 模式扩散注意力寻找新方案。对应 Agent:当成功率下降时,Agent 应自动从”坚持当前方法”切换到”探索新策略”,如果探索也持续失败,则系统应该触发”认输”信号。这个渐进的切换机制比硬编码的”重试 N 次”更优雅——阈值不是常数,而是由不确定性动态驱动的。
互补学习系统(McClelland, McNaughton & O’Reilly, 1995)—— 海马体负责快速编码新经验(一次经历就能学会),新皮层负责缓慢将重复模式整合为结构化知识。两者协同工作:海马体是”快速写入、容量有限”的索引,新皮层是”慢速整合、容量巨大”的知识库。这直接验证了我们为课题二/三设计的热路径+冷备架构:增量倒排索引对应海马体(快速索引新对话),压缩冷备对应新皮层(慢速整合为结构化知识)。互补学习系统的一个重要特性是——海马体的索引机制不存储完整记忆,只存储指向新皮层存储位置的指针。这正是倒排索引的本质。
现有调研(2026-05)
“学习器”作为一个独立于推理器的架构组件,学界已有多个方向在探索:
EvolveR(ICML 2026)
EvolveR 提出经验驱动的闭环生命周期,两个核心阶段:
- 离线自蒸馏:将交互轨迹合成为结构化、可复用的策略原则库
- 在线交互:检索蒸馏后的原则指导决策,用策略强化机制迭代更新
引入语义去重、动态评分质量控制、策略梯度优化。代表策略优化路线——通过 RL 更新模型参数实现自我进化。
Memento(UCL 汪军团队)
Memento提出记忆增强 MDP(M-MDP),不修改 LLM 参数实现持续在线学习:
- 外部结构化记忆存储经验,通过语义相似性检索指导推理
- 变体:非参数版(纯语义检索)和参数版(轻量神经网络 + RL)
- 在 DeepResearcher、GAIA、HLE 等基准上取得 SOTA
这条路线与”推理器 vs 学习器分离”的直觉高度一致——LLM 只做推理,学习器独立于模型之外。
共进化世界模型(Hongming Zhang, Kaixin Ma 等)
引入共进化世界模型,双重角色:
- 虚拟环境生成器:产出自指导训练数据,持续优化 Agent 策略
- 想象力引擎:推理时前瞻仿真,引导动作选择
在 Mind2Web-Live、WebVoyager、GAIA-web 上比现有自进化 Agent 提升约 10%,无需蒸馏更强模型。
L0 / NB-Agent(招商局狮子山 AI Lab)
纯 RL 让模型从零学会”思考→写代码→观察”的探索循环,不依赖人类示范:
- L0-RL 在 HotpotQA 上提升 84%,SimpleQA 上提升 166%
- 代码作为 Agent 的核心动作空间,Jupyter REPL 为交互环境
技术路线对比
| 路线 | 代表 | 是否修改模型参数 | 适用场景 |
|---|---|---|---|
| 外部记忆型 | Memento, CFGM | 否 | 在线持续学习,部署后不中断 |
| 策略优化型 | EvolveR, L0, SSR | 是 | 离线深度训练,发布新版本 |
| 世界模型型 | Co-evolving World Model | 兼有 | 需前瞻仿真,可离线/在线 |
趋势总结
- 闭环生命周期成标准范式:在线交互 → 经验抽象 → 离线蒸馏 → 策略更新 → 再次交互
- 两条路线并行:记忆型(轻量、可在线)和策略型(深度、可泛化),各有适用场景
- 代码作为动作空间:Python/Jupyter 成为 Agent 核心交互方式(L0, SWE-RL)
- “学习器”作为独立组件正在被明确化:Memento 的 M-MDP、EvolveR 的经验库,本质上都是在构建”推理器之外的第二个系统”
核心挑战
- LLM 架构瓶颈:当前 Transformer 本质是推理器,非学习器。自我演进需要模型具备在线学习能力,这触及课题二十(自回归模型局限)的根本问题
- 演进方向保证:没有外部监督的自我演进可能走偏——“学会”了错误的模式并固化
- 评估困难:自我演进是长期过程,短期难以衡量效果;改进可能累积数月才显现
- 人机信任:Agent 自我修改后,人类还信不信它?如何验证修改是安全的?
- 没有银弹(Brooks, 1986)的约束:软件复杂度分为本质(essential)和偶然(accidental),本质复杂度无法消除。自我演进可以自动化偶然复杂度(不再需要人改 prompt、调参数),但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题
关联课题
- agent-tool-learning — 工具学习是自我扩展的基础
- self-verification — 自我评判是自我演进的前体条件
- agent-memory-system — 记忆是学习的基础设施
- autoregressive-limits — LLM 架构对在线学习的固有限制
- agent-task-planning — 任务级重规划 vs 能力级自我修正
- thinking-fast-slow-llm — 快思考执行 + 慢思考反思构成演进循环
- agent-evaluation-framework — 演进效果的评估难题;健康检查与基线偏离检测
- agent-safety-boundary — 自我修改的安全边界
经典理论映射
没有银弹(Brooks, 1986)的约束:软件复杂度分为本质(essential)和偶然(accidental),本质复杂度无法消除。自我演进可以自动化偶然复杂度(不再需要人改 prompt、调参数),但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题。
系统理论(Luhmann, 1984)认为社会是功能分化的自创生系统——系统通过自身运作维持和再生产自身结构。Agent 自我演进正是自创生的一个实例:Agent 在当前状态下运作 → 产生输出和反馈 → 吸收反馈调整自身结构 → 在新结构下继续运作。关键在于 Luhmann 的自创生是”操作上封闭”的——系统只能以自己的方式处理环境刺激。对应到 Agent,它只能通过自己的记忆、工具、推理框架来理解世界,这既是自我演进的必要条件(无需人类介入),也是根本局限(无法跳出自己的认知框架)。
钱学森工程控制论(1954)的自适应控制理论为 Agent 自我演进提供了工程框架。自适应控制系统的核心是:系统在运行中辨识自身动态特性,据此调整控制参数,使系统在环境变化时保持最优或至少稳定的性能。对应到 Agent:Agent 在执行任务时通过成功/失败信号辨识自身的”动态特性”(什么策略有效、什么工具适用),然后调整自己的策略参数(记忆权重、工具选择偏好、推理方式)。工程控制论的一个关键结论是——自适应控制必须有明确的性能指标和收敛判据,否则系统可能振荡甚至发散。这直接对应自我演进的核心挑战:没有明确的评判标准(课题二十二),自我修正可能不是收敛到更优,而是发散到不可控。