Agent 自我演进

概述

Agent 像生物一样自主进化:从经验中学习、自我修正行为模式、自主扩展能力。

前提条件

  1. 长期记忆(课题三)— 存储过去的经验
  2. 自我评判(课题二十二)— 判断哪些经验值得学习
  3. Skill 治理(课题二十七)— 管理学会的新能力

研究方向

  • 从失败中自动提取教训
  • 行为模式的自适应调整
  • 能力边界的自主探索

2026-06 论文速览

  • MUSE-Autoskill — 字节跳动提出的完整闭环自我进化,系统性覆盖技能自主创建、记忆系统支撑、进化过程管理和结果评估四个核心模块(2606.xxxxx,6 月 3 日)
  • Harness Updating Is Not Harness Benefit — 揭示自进化研究中隐蔽的方法论陷阱:Harness 更新不应被误认为 Agent 能力的真实提升。想做自我演进必须先读这篇(2606.xxxxx,6 月 3 日)
  • SkillGrad — 将 Agent skill 视为可优化参数,提出类梯度下降的 skill 优化框架。使用轨迹级损失 + 文本梯度 + 动量累积 + LLM patcher 迭代更新,平均超越最强训练 baseline 6.7 pp(2605.27760)
  • MMG2Skill — 将野生多模态指南转化为可执行技能,闭环框架:编译指南 → 条件化执行 → 轨迹根因反馈 → 修订技能。所有 18 个模型-域组合一致提升 +12.8 到 +25.3 pp(2606.01993)
  • Rethinking Continual Experience Internalization — 发现多轮经验学习下出现渐进式能力崩溃。系统分析三大维度:原则级 > 实例级经验、逐步注入 >> 全局注入、离策略 > 在策略。为稳定自进化提供工程指导(2606.04703)
  • SePO (Self-Evolving Prompt Agent) — 自引用设计:单一提示 Agent 在进化搜索中同时改进任务 Agent 和自己的 system prompt。AIME’25 等 5 个基准上平均 +4.49 pp(2606.04465)
  • The Meta-Agent Challenge — 检验当前 Agent 能否自主开发 Agent,直接触及 Agent 能力范式边界与自我演进的天花板(2606.04455)

相关页面:agent-memory-system self-verification skill-lifecycle-governance agent-tool-learning