课题二十六:Agent 自我演进

优先级: 观察中

核心问题

Agent 能否像生物一样,在与环境交互中自主进化——不是靠人类换模型、改 prompt,而是自己提升能力?

当前 Agent 的能力提升完全依赖人类:人类发现不足 → 人类修改 prompt/更换模型/调整架构 → Agent 被动升级。如果 Agent 能在运行时自主学习、修正、扩展,将彻底改变开发范式。

关键维度

1. 自我学习(从经验中提炼)

  • Agent 能否从成功/失败案例中自动提取经验,存入记忆库?
  • 能否抽象出模式(“这类问题应该这么做”),而非记住单次结果?
  • 前体条件:必须有可读写的长期记忆(课题三)、能自我评判好坏(课题二十二)

2. 自我修正(行为模式调整)

  • Agent 能否检测到自己行为模式的系统性缺陷?
  • 检测到后能否自动调整策略(而非每次等人修改 prompt)?
  • 与 RePlan(课题六)的区别:RePlan 是任务级的重规划,自我修正是能力级的行为调整
  • 核心挑战:如何区分”这次运气不好”和”我这个方法有问题”

3. 自我扩展(工具与能力边界)

  • Agent 能否自主发现并集成新工具,不等人配好?
  • 能否将已验证的能力固化为可复用的”技能”?
  • 与课题七(工具学习)的关系:课题七侧重”学用已有工具”,自我扩展侧重”创造/集成新能力”

4. 自我适应(环境迁移)

  • 换到新领域/新环境,Agent 能否自动适配?
  • 迁移学习 vs 从零学习——能否判断什么时候该复用旧经验,什么时候该抛弃?

5. 自我修复与健康管理

Agent 也会”生病”——上下文被污染、记忆腐化、SOP 僵化、规划漂移、幻觉传染——且 Agent 通常没有自我感知能力,不像人能感觉到”哪里不对”。

常见病症:

症状类比
上下文污染用户/第三方注入恶意指令,Agent 被 hijack中毒
记忆腐化错误经验写入长期记忆,反复走偏慢性病
SOP 僵化固化的工作流不再适用,但 Agent 继续执行习惯性错误
规划漂移逐步偏离原始目标,每步看似合理走神→迷路
幻觉传染某一步产生幻觉,后续在其基础上继续错以讹传讹

关键特征:

  • 无自我感知:Agent 不会主动说”我好像出问题了”
  • 渐进恶化:多数”病”是累积的,没有单点触发告警
  • 病因难追溯:出问题时难以定位”哪一步开始坏的”

可能的应对方向:

  • 健康检查接口:Agent 暴露可调用的健康状态接口,外部监控定期检测(类比:人的体检)
  • 行为基线:记录 Agent 正常行为模式,偏离基线触发告警
  • 隔离诊断:怀疑某部分异常时,在隔离环境复现,不影响线上运行
  • 回滚机制:记忆/配置快照 → 检测到”生病” → 回滚到上一个已知健康状态
  • 自愈流程:健康检查发现问题 → 诊断病因 → 修复(清理上下文、修正记忆、重置 SOP)→ 验证恢复

6. 元认知与”被困”感知

Agent 没有”我卡住了”的自我感知。人在多次失败后会感到挫败——这是一个元认知信号,触发策略切换或放弃。Agent 每次失败后都”理性地”选择下一动作,但缺乏累积失败感知,无法做出”此路期望收益已为负”的判断。

“竭尽全力”指标——一种可工程化的设计:

Agent 接受任务 → 设定初始预算
  │
  尝试 → 失败 → 失败计数 +1,消耗预算
  │                ↓
  │           激活更多资源(更多推理 token、更慢但更强的模型、更深搜索)
  │
  再次尝试 → 失败 → 失败计数 +2,消耗更多预算
  │                ↓
  │           继续加码...直到预算耗尽
  │
  失败计数 = N → 预算耗尽 → Agent 停止工作,承认错误

关键机制:

  • 失败计数 ≠ 简单计数器,而是累积的”努力-成本”指标——每多一次失败,投入的资源(推理深度、模型大小、搜索广度)自动升级
  • 成本阈值是硬边界——时间消耗、物理性能、token 预算到达上限时,Agent 必须承认错误,不允许无限坚持
  • 认输是设计目标而非 bug——在一个确定的时间点给出”我解决不了这个问题”是负责任的行为,比产出不可靠结果更好

与现有机制的关系:

  • 区别于硬编码的”重试 3 次”——这个指标的阈值是动态的,取决于问题的复杂度、可用资源和历史成功率
  • 区别于 RePlan(课题六)——RePlan 是在同一个任务内切换路径,“被困”感知是判断是否应该终止整个任务
  • 区别于自我验证(课题二十二)——验证只在单步输出后检查正确性,不涉及对”整体任务的可解性”的元判断

待解决问题:

#问题描述
1阈值设定”竭尽全力”指标的上限怎么定?设太低过早放弃,设太高浪费资源。是否应该随任务历史成功率动态调整?
2加码策略每次失败后资源升级的幅度——线性增长、指数退避、还是基于问题复杂度自适应?
3问题难度感知简单任务重试 3 次就该放弃,复杂任务可以尝试更多。但 Agent 如何在一开始就预估难度?
4失败后行为链承认错误后——彻底停止、请求人类帮助、降级到最简方案继续、还是切换到完全不同的方法?不同场景应该有不同的”失败后协议”

经典理论映射(心理学):

习得性无助(Seligman, 1967)—— 动物在反复遭受无法控制的负面刺激后,即使后来有机会逃脱也不再尝试。这与我们设计的”竭尽全力”指标恰好是同一枚硬币的两面:人类/动物的习得性无助是”放弃得太早”的心理学解释,而 Agent 的”被困感知”机制需要在两者之间找到正确的平衡——既不像习得性无助那样过早认输,也不像 Agent 现在这样永远不认输。Seligman 后来的研究发现,习得性无助的关键不是失败本身,而是**“对结果不可控的感知”**——这直接回答了”Agent 何时该放弃”的问题:不是失败了 X 次,而是 Agent 判断”当前问题超出了我的可控范围”。

操作条件反射(Skinner, 1938)—— 行为通过奖惩被塑造,强化的频率和时机决定了行为固化的速度。Agent 从成功/失败中学习经验(工具使用偏好、策略选择)本质上就是操作条件反射。Skinner 的关键发现是可变比率强化(不定期奖励)形成的习惯最难消退——这对 Agent 记忆系统中”什么样的经验值得保留”有直接设计启示:偶尔成功的经验比一直成功的经验更值得保留,因为它可能代表了一种在特定条件下的有价值策略。

经典理论映射(脑科学):

前扣带回(ACC)冲突监测(Botvinick et al., 2004)—— 大脑的 ACC 持续监测当前反应与目标之间的冲突程度。当检测到冲突(多种不兼容的反应倾向同时存在),ACC 向 prefrontal 皮层发送信号,触发认知控制加码。这就是大脑的”我卡住了”机制:不是在等失败计数器到 N,而是感知到”当前的输入模式不匹配任何已知响应模式”。这对”被困感知”的设计有直接指导——不应该统计失败次数,而应该检测 Agent 内部的不确定性/冲突程度。当 Agent 同时认为多种可能策略都不靠谱时,就该触发”竭尽全力”加码或认输。

去甲肾上腺素(LC-NE)系统与利用-探索权衡(Aston-Jones & Cohen, 2005)—— 脑干蓝斑核的去甲肾上腺素系统调节两个模式之间的平衡:专注利用当前策略(phasic mode)和广泛探索新可能(tonic mode)。当任务表现良好时,NE 系统维持 phasic 模式让你专注;当奖励变少、不确定性升高时,切换到 tonic 模式扩散注意力寻找新方案。对应 Agent:当成功率下降时,Agent 应自动从”坚持当前方法”切换到”探索新策略”,如果探索也持续失败,则系统应该触发”认输”信号。这个渐进的切换机制比硬编码的”重试 N 次”更优雅——阈值不是常数,而是由不确定性动态驱动的。

互补学习系统(McClelland, McNaughton & O’Reilly, 1995)—— 海马体负责快速编码新经验(一次经历就能学会),新皮层负责缓慢将重复模式整合为结构化知识。两者协同工作:海马体是”快速写入、容量有限”的索引,新皮层是”慢速整合、容量巨大”的知识库。这直接验证了我们为课题二/三设计的热路径+冷备架构:增量倒排索引对应海马体(快速索引新对话),压缩冷备对应新皮层(慢速整合为结构化知识)。互补学习系统的一个重要特性是——海马体的索引机制不存储完整记忆,只存储指向新皮层存储位置的指针。这正是倒排索引的本质。

现有调研(2026-05)

“学习器”作为一个独立于推理器的架构组件,学界已有多个方向在探索:

EvolveR(ICML 2026)

EvolveR 提出经验驱动的闭环生命周期,两个核心阶段:

  • 离线自蒸馏:将交互轨迹合成为结构化、可复用的策略原则库
  • 在线交互:检索蒸馏后的原则指导决策,用策略强化机制迭代更新

引入语义去重、动态评分质量控制、策略梯度优化。代表策略优化路线——通过 RL 更新模型参数实现自我进化。

Memento(UCL 汪军团队)

Memento提出记忆增强 MDP(M-MDP),不修改 LLM 参数实现持续在线学习:

  • 外部结构化记忆存储经验,通过语义相似性检索指导推理
  • 变体:非参数版(纯语义检索)和参数版(轻量神经网络 + RL)
  • 在 DeepResearcher、GAIA、HLE 等基准上取得 SOTA

这条路线与”推理器 vs 学习器分离”的直觉高度一致——LLM 只做推理,学习器独立于模型之外。

共进化世界模型(Hongming Zhang, Kaixin Ma 等)

引入共进化世界模型,双重角色:

  • 虚拟环境生成器:产出自指导训练数据,持续优化 Agent 策略
  • 想象力引擎:推理时前瞻仿真,引导动作选择

在 Mind2Web-Live、WebVoyager、GAIA-web 上比现有自进化 Agent 提升约 10%,无需蒸馏更强模型。

L0 / NB-Agent(招商局狮子山 AI Lab)

纯 RL 让模型从零学会”思考→写代码→观察”的探索循环,不依赖人类示范:

  • L0-RL 在 HotpotQA 上提升 84%,SimpleQA 上提升 166%
  • 代码作为 Agent 的核心动作空间,Jupyter REPL 为交互环境

技术路线对比

路线代表是否修改模型参数适用场景
外部记忆型Memento, CFGM在线持续学习,部署后不中断
策略优化型EvolveR, L0, SSR离线深度训练,发布新版本
世界模型型Co-evolving World Model兼有需前瞻仿真,可离线/在线

趋势总结

  1. 闭环生命周期成标准范式:在线交互 → 经验抽象 → 离线蒸馏 → 策略更新 → 再次交互
  2. 两条路线并行:记忆型(轻量、可在线)和策略型(深度、可泛化),各有适用场景
  3. 代码作为动作空间:Python/Jupyter 成为 Agent 核心交互方式(L0, SWE-RL)
  4. “学习器”作为独立组件正在被明确化:Memento 的 M-MDP、EvolveR 的经验库,本质上都是在构建”推理器之外的第二个系统”

核心挑战

  • LLM 架构瓶颈:当前 Transformer 本质是推理器,非学习器。自我演进需要模型具备在线学习能力,这触及课题二十(自回归模型局限)的根本问题
  • 演进方向保证:没有外部监督的自我演进可能走偏——“学会”了错误的模式并固化
  • 评估困难:自我演进是长期过程,短期难以衡量效果;改进可能累积数月才显现
  • 人机信任:Agent 自我修改后,人类还信不信它?如何验证修改是安全的?
  • 没有银弹(Brooks, 1986)的约束:软件复杂度分为本质(essential)和偶然(accidental),本质复杂度无法消除。自我演进可以自动化偶然复杂度(不再需要人改 prompt、调参数),但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题

关联课题

经典理论映射

没有银弹(Brooks, 1986)的约束:软件复杂度分为本质(essential)和偶然(accidental),本质复杂度无法消除。自我演进可以自动化偶然复杂度(不再需要人改 prompt、调参数),但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题。

系统理论(Luhmann, 1984)认为社会是功能分化的自创生系统——系统通过自身运作维持和再生产自身结构。Agent 自我演进正是自创生的一个实例:Agent 在当前状态下运作 → 产生输出和反馈 → 吸收反馈调整自身结构 → 在新结构下继续运作。关键在于 Luhmann 的自创生是”操作上封闭”的——系统只能以自己的方式处理环境刺激。对应到 Agent,它只能通过自己的记忆、工具、推理框架来理解世界,这既是自我演进的必要条件(无需人类介入),也是根本局限(无法跳出自己的认知框架)。

钱学森工程控制论(1954)的自适应控制理论为 Agent 自我演进提供了工程框架。自适应控制系统的核心是:系统在运行中辨识自身动态特性,据此调整控制参数,使系统在环境变化时保持最优或至少稳定的性能。对应到 Agent:Agent 在执行任务时通过成功/失败信号辨识自身的”动态特性”(什么策略有效、什么工具适用),然后调整自己的策略参数(记忆权重、工具选择偏好、推理方式)。工程控制论的一个关键结论是——自适应控制必须有明确的性能指标收敛判据,否则系统可能振荡甚至发散。这直接对应自我演进的核心挑战:没有明确的评判标准(课题二十二),自我修正可能不是收敛到更优,而是发散到不可控。