孙雪健的数字花园

❯

❯

agent-self-evolution

agent-self-evolution

Properties1

tags	topic, evolution, self-improvement, meta-learning

2026年6月13日3分钟阅读

Agent 自我演进

概述

Agent 像生物一样自主进化：从经验中学习、自我修正行为模式、自主扩展能力。

前提条件

长期记忆（课题三）— 存储过去的经验
自我评判（课题二十二）— 判断哪些经验值得学习
Skill 治理（课题二十七）— 管理学会的新能力

研究方向

从失败中自动提取教训
行为模式的自适应调整
能力边界的自主探索

2026-06 论文速览

MUSE-Autoskill — 字节跳动提出的完整闭环自我进化，系统性覆盖技能自主创建、记忆系统支撑、进化过程管理和结果评估四个核心模块（2606.xxxxx，6 月 3 日）
Harness Updating Is Not Harness Benefit — 揭示自进化研究中隐蔽的方法论陷阱：Harness 更新不应被误认为 Agent 能力的真实提升。想做自我演进必须先读这篇（2606.xxxxx，6 月 3 日）
SkillGrad — 将 Agent skill 视为可优化参数，提出类梯度下降的 skill 优化框架。使用轨迹级损失 + 文本梯度 + 动量累积 + LLM patcher 迭代更新，平均超越最强训练 baseline 6.7 pp（2605.27760）
MMG2Skill — 将野生多模态指南转化为可执行技能，闭环框架：编译指南 → 条件化执行 → 轨迹根因反馈 → 修订技能。所有 18 个模型-域组合一致提升 +12.8 到 +25.3 pp（2606.01993）
Rethinking Continual Experience Internalization — 发现多轮经验学习下出现渐进式能力崩溃。系统分析三大维度：原则级 > 实例级经验、逐步注入 >> 全局注入、离策略 > 在策略。为稳定自进化提供工程指导（2606.04703）
SePO (Self-Evolving Prompt Agent) — 自引用设计：单一提示 Agent 在进化搜索中同时改进任务 Agent 和自己的 system prompt。AIME’25 等 5 个基准上平均 +4.49 pp（2606.04465）
The Meta-Agent Challenge — 检验当前 Agent 能否自主开发 Agent，直接触及 Agent 能力范式边界与自我演进的天花板（2606.04455）

相关页面：agent-memory-system self-verification skill-lifecycle-governance agent-tool-learning

关系图谱

Agent 自我演进
概述
前提条件
研究方向
2026-06 论文速览

反向链接

index
_index
agent-dev-workflow
agent-tool-learning
ai-traditional-disciplines
skill-lifecycle-governance

Created with Quartz v5.0.0 © 2026

GitHub
关于我