课题二十六：Agent 自我演进

优先级： 观察中

核心问题

Agent 能否像生物一样，在与环境交互中自主进化——不是靠人类换模型、改 prompt，而是自己提升能力？

当前 Agent 的能力提升完全依赖人类：人类发现不足 → 人类修改 prompt/更换模型/调整架构 → Agent 被动升级。如果 Agent 能在运行时自主学习、修正、扩展，将彻底改变开发范式。

关键维度

1. 自我学习（从经验中提炼）

Agent 能否从成功/失败案例中自动提取经验，存入记忆库？
能否抽象出模式（“这类问题应该这么做”），而非记住单次结果？
前体条件：必须有可读写的长期记忆（课题三）、能自我评判好坏（课题二十二）

2. 自我修正（行为模式调整）

Agent 能否检测到自己行为模式的系统性缺陷？
检测到后能否自动调整策略（而非每次等人修改 prompt）？
与 RePlan（课题六）的区别：RePlan 是任务级的重规划，自我修正是能力级的行为调整
核心挑战：如何区分”这次运气不好”和”我这个方法有问题”

3. 自我扩展（工具与能力边界）

Agent 能否自主发现并集成新工具，不等人配好？
能否将已验证的能力固化为可复用的”技能”？
与课题七（工具学习）的关系：课题七侧重”学用已有工具”，自我扩展侧重”创造/集成新能力”

4. 自我适应（环境迁移）

换到新领域/新环境，Agent 能否自动适配？
迁移学习 vs 从零学习——能否判断什么时候该复用旧经验，什么时候该抛弃？

5. 自我修复与健康管理

Agent 也会”生病”——上下文被污染、记忆腐化、SOP 僵化、规划漂移、幻觉传染——且 Agent 通常没有自我感知能力，不像人能感觉到”哪里不对”。

常见病症：

病	症状	类比
上下文污染	用户/第三方注入恶意指令，Agent 被 hijack	中毒
记忆腐化	错误经验写入长期记忆，反复走偏	慢性病
SOP 僵化	固化的工作流不再适用，但 Agent 继续执行	习惯性错误
规划漂移	逐步偏离原始目标，每步看似合理	走神→迷路
幻觉传染	某一步产生幻觉，后续在其基础上继续错	以讹传讹

关键特征：

无自我感知：Agent 不会主动说”我好像出问题了”
渐进恶化：多数”病”是累积的，没有单点触发告警
病因难追溯：出问题时难以定位”哪一步开始坏的”

可能的应对方向：

健康检查接口：Agent 暴露可调用的健康状态接口，外部监控定期检测（类比：人的体检）
行为基线：记录 Agent 正常行为模式，偏离基线触发告警
隔离诊断：怀疑某部分异常时，在隔离环境复现，不影响线上运行
回滚机制：记忆/配置快照 → 检测到”生病” → 回滚到上一个已知健康状态
自愈流程：健康检查发现问题 → 诊断病因 → 修复（清理上下文、修正记忆、重置 SOP）→ 验证恢复

6. 元认知与”被困”感知

Agent 没有”我卡住了”的自我感知。人在多次失败后会感到挫败——这是一个元认知信号，触发策略切换或放弃。Agent 每次失败后都”理性地”选择下一动作，但缺乏累积失败感知，无法做出”此路期望收益已为负”的判断。

“竭尽全力”指标——一种可工程化的设计：

Agent 接受任务 → 设定初始预算
  │
  尝试 → 失败 → 失败计数 +1，消耗预算
  │                ↓
  │           激活更多资源（更多推理 token、更慢但更强的模型、更深搜索）
  │
  再次尝试 → 失败 → 失败计数 +2，消耗更多预算
  │                ↓
  │           继续加码...直到预算耗尽
  │
  失败计数 = N → 预算耗尽 → Agent 停止工作，承认错误

关键机制：

失败计数 ≠ 简单计数器，而是累积的”努力-成本”指标——每多一次失败，投入的资源（推理深度、模型大小、搜索广度）自动升级
成本阈值是硬边界——时间消耗、物理性能、token 预算到达上限时，Agent 必须承认错误，不允许无限坚持
认输是设计目标而非 bug——在一个确定的时间点给出”我解决不了这个问题”是负责任的行为，比产出不可靠结果更好

与现有机制的关系：

区别于硬编码的”重试 3 次”——这个指标的阈值是动态的，取决于问题的复杂度、可用资源和历史成功率
区别于 RePlan（课题六）——RePlan 是在同一个任务内切换路径，“被困”感知是判断是否应该终止整个任务
区别于自我验证（课题二十二）——验证只在单步输出后检查正确性，不涉及对”整体任务的可解性”的元判断

待解决问题：

#	问题	描述
1	阈值设定	”竭尽全力”指标的上限怎么定？设太低过早放弃，设太高浪费资源。是否应该随任务历史成功率动态调整？
2	加码策略	每次失败后资源升级的幅度——线性增长、指数退避、还是基于问题复杂度自适应？
3	问题难度感知	简单任务重试 3 次就该放弃，复杂任务可以尝试更多。但 Agent 如何在一开始就预估难度？
4	失败后行为链	承认错误后——彻底停止、请求人类帮助、降级到最简方案继续、还是切换到完全不同的方法？不同场景应该有不同的”失败后协议”

经典理论映射（心理学）：

习得性无助（Seligman, 1967）—— 动物在反复遭受无法控制的负面刺激后，即使后来有机会逃脱也不再尝试。这与我们设计的”竭尽全力”指标恰好是同一枚硬币的两面：人类/动物的习得性无助是”放弃得太早”的心理学解释，而 Agent 的”被困感知”机制需要在两者之间找到正确的平衡——既不像习得性无助那样过早认输，也不像 Agent 现在这样永远不认输。Seligman 后来的研究发现，习得性无助的关键不是失败本身，而是**“对结果不可控的感知”**——这直接回答了”Agent 何时该放弃”的问题：不是失败了 X 次，而是 Agent 判断”当前问题超出了我的可控范围”。

操作条件反射（Skinner, 1938）—— 行为通过奖惩被塑造，强化的频率和时机决定了行为固化的速度。Agent 从成功/失败中学习经验（工具使用偏好、策略选择）本质上就是操作条件反射。Skinner 的关键发现是可变比率强化（不定期奖励）形成的习惯最难消退——这对 Agent 记忆系统中”什么样的经验值得保留”有直接设计启示：偶尔成功的经验比一直成功的经验更值得保留，因为它可能代表了一种在特定条件下的有价值策略。

经典理论映射（脑科学）：

前扣带回（ACC）冲突监测（Botvinick et al., 2004）—— 大脑的 ACC 持续监测当前反应与目标之间的冲突程度。当检测到冲突（多种不兼容的反应倾向同时存在），ACC 向 prefrontal 皮层发送信号，触发认知控制加码。这就是大脑的”我卡住了”机制：不是在等失败计数器到 N，而是感知到”当前的输入模式不匹配任何已知响应模式”。这对”被困感知”的设计有直接指导——不应该统计失败次数，而应该检测 Agent 内部的不确定性/冲突程度。当 Agent 同时认为多种可能策略都不靠谱时，就该触发”竭尽全力”加码或认输。

去甲肾上腺素（LC-NE）系统与利用-探索权衡（Aston-Jones & Cohen, 2005）—— 脑干蓝斑核的去甲肾上腺素系统调节两个模式之间的平衡：专注利用当前策略（phasic mode）和广泛探索新可能（tonic mode）。当任务表现良好时，NE 系统维持 phasic 模式让你专注；当奖励变少、不确定性升高时，切换到 tonic 模式扩散注意力寻找新方案。对应 Agent：当成功率下降时，Agent 应自动从”坚持当前方法”切换到”探索新策略”，如果探索也持续失败，则系统应该触发”认输”信号。这个渐进的切换机制比硬编码的”重试 N 次”更优雅——阈值不是常数，而是由不确定性动态驱动的。

互补学习系统（McClelland, McNaughton & O’Reilly, 1995）—— 海马体负责快速编码新经验（一次经历就能学会），新皮层负责缓慢将重复模式整合为结构化知识。两者协同工作：海马体是”快速写入、容量有限”的索引，新皮层是”慢速整合、容量巨大”的知识库。这直接验证了我们为课题二/三设计的热路径+冷备架构：增量倒排索引对应海马体（快速索引新对话），压缩冷备对应新皮层（慢速整合为结构化知识）。互补学习系统的一个重要特性是——海马体的索引机制不存储完整记忆，只存储指向新皮层存储位置的指针。这正是倒排索引的本质。

现有调研（2026-05）

“学习器”作为一个独立于推理器的架构组件，学界已有多个方向在探索：

EvolveR（ICML 2026）

EvolveR 提出经验驱动的闭环生命周期，两个核心阶段：

离线自蒸馏：将交互轨迹合成为结构化、可复用的策略原则库
在线交互：检索蒸馏后的原则指导决策，用策略强化机制迭代更新

引入语义去重、动态评分质量控制、策略梯度优化。代表策略优化路线——通过 RL 更新模型参数实现自我进化。

Memento（UCL 汪军团队）

Memento提出记忆增强 MDP（M-MDP），不修改 LLM 参数实现持续在线学习：

外部结构化记忆存储经验，通过语义相似性检索指导推理
变体：非参数版（纯语义检索）和参数版（轻量神经网络 + RL）
在 DeepResearcher、GAIA、HLE 等基准上取得 SOTA

这条路线与”推理器 vs 学习器分离”的直觉高度一致——LLM 只做推理，学习器独立于模型之外。

共进化世界模型（Hongming Zhang, Kaixin Ma 等）

引入共进化世界模型，双重角色：

虚拟环境生成器：产出自指导训练数据，持续优化 Agent 策略
想象力引擎：推理时前瞻仿真，引导动作选择

在 Mind2Web-Live、WebVoyager、GAIA-web 上比现有自进化 Agent 提升约 10%，无需蒸馏更强模型。

L0 / NB-Agent（招商局狮子山 AI Lab）

纯 RL 让模型从零学会”思考→写代码→观察”的探索循环，不依赖人类示范：

L0-RL 在 HotpotQA 上提升 84%，SimpleQA 上提升 166%
代码作为 Agent 的核心动作空间，Jupyter REPL 为交互环境

技术路线对比

路线	代表	是否修改模型参数	适用场景
外部记忆型	Memento, CFGM	否	在线持续学习，部署后不中断
策略优化型	EvolveR, L0, SSR	是	离线深度训练，发布新版本
世界模型型	Co-evolving World Model	兼有	需前瞻仿真，可离线/在线

趋势总结

闭环生命周期成标准范式：在线交互 → 经验抽象 → 离线蒸馏 → 策略更新 → 再次交互
两条路线并行：记忆型（轻量、可在线）和策略型（深度、可泛化），各有适用场景
代码作为动作空间：Python/Jupyter 成为 Agent 核心交互方式（L0, SWE-RL）
“学习器”作为独立组件正在被明确化：Memento 的 M-MDP、EvolveR 的经验库，本质上都是在构建”推理器之外的第二个系统”

核心挑战

LLM 架构瓶颈：当前 Transformer 本质是推理器，非学习器。自我演进需要模型具备在线学习能力，这触及课题二十（自回归模型局限）的根本问题
演进方向保证：没有外部监督的自我演进可能走偏——“学会”了错误的模式并固化
评估困难：自我演进是长期过程，短期难以衡量效果；改进可能累积数月才显现
人机信任：Agent 自我修改后，人类还信不信它？如何验证修改是安全的？
没有银弹（Brooks, 1986）的约束：软件复杂度分为本质（essential）和偶然（accidental），本质复杂度无法消除。自我演进可以自动化偶然复杂度（不再需要人改 prompt、调参数），但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题

关联课题

agent-tool-learning — 工具学习是自我扩展的基础
self-verification — 自我评判是自我演进的前体条件
agent-memory-system — 记忆是学习的基础设施
autoregressive-limits — LLM 架构对在线学习的固有限制
agent-task-planning — 任务级重规划 vs 能力级自我修正
thinking-fast-slow-llm — 快思考执行 + 慢思考反思构成演进循环
agent-evaluation-framework — 演进效果的评估难题；健康检查与基线偏离检测
agent-safety-boundary — 自我修改的安全边界

经典理论映射

没有银弹（Brooks, 1986）的约束：软件复杂度分为本质（essential）和偶然（accidental），本质复杂度无法消除。自我演进可以自动化偶然复杂度（不再需要人改 prompt、调参数），但不能消除本质复杂度——理解用户歧义意图、处理不确定环境、在冲突目标间权衡——这些仍然是 Agent 必须面对的核心难题。

系统理论（Luhmann, 1984）认为社会是功能分化的自创生系统——系统通过自身运作维持和再生产自身结构。Agent 自我演进正是自创生的一个实例：Agent 在当前状态下运作 → 产生输出和反馈 → 吸收反馈调整自身结构 → 在新结构下继续运作。关键在于 Luhmann 的自创生是”操作上封闭”的——系统只能以自己的方式处理环境刺激。对应到 Agent，它只能通过自己的记忆、工具、推理框架来理解世界，这既是自我演进的必要条件（无需人类介入），也是根本局限（无法跳出自己的认知框架）。

钱学森工程控制论（1954）的自适应控制理论为 Agent 自我演进提供了工程框架。自适应控制系统的核心是：系统在运行中辨识自身动态特性，据此调整控制参数，使系统在环境变化时保持最优或至少稳定的性能。对应到 Agent：Agent 在执行任务时通过成功/失败信号辨识自身的”动态特性”（什么策略有效、什么工具适用），然后调整自己的策略参数（记忆权重、工具选择偏好、推理方式）。工程控制论的一个关键结论是——自适应控制必须有明确的性能指标和收敛判据，否则系统可能振荡甚至发散。这直接对应自我演进的核心挑战：没有明确的评判标准（课题二十二），自我修正可能不是收敛到更优，而是发散到不可控。

孙雪健的数字花园

探索

README