Agent 范式演进时间线
课题一:Agent 范式演进与关键技术转折 分层:Layer 1 | 元认知与认知框架 状态:系统性梳理完成 最后更新:2026-05-30
总览:Agent 范式的四波演进
2022 ──────────────────────────────────────────────────── 2026 →
│ │ │ │
第一波 第二波 第三波 第四波
Prompting 工具使用 自治Agent 生态标准化
──────── ────────── ────────── ──────────
CoT (2022) ReAct (2023) AutoGPT (2023) MCP (2024.11)
ToT (2023) Toolformer BabyAGI A2A (2025.04)
GoT (2023) ART (2023) AgentGPT Agents SDKs
CoVe (2023) ReWoo (2023) GPT-Engineer ADK (2025)
Func Calling Devin (2024) Hermes Agent
RAG Claude Code ...
Reflexion Manus (2025)
第一波:推理增强与思维范式 (2022-2023)
核心问题:如何让 LLM 更好地”思考”?
里程碑
| 时间 | 技术 | 贡献者 | 核心思想 |
|---|---|---|---|
| 2022.01 | Chain-of-Thought (CoT) | Wei et al. (Google) | “Let’s think step by step” — 将复杂问题分解为中间推理步骤 |
| 2022.05 | Self-Consistency | Wang et al. (Google) | 多次采样 CoT 结果,取多数投票,提升推理鲁棒性 |
| 2022.10 | ReAct | Yao et al. (Google/Princeton) | 关键转折点 — 推理(Reasoning)与行动(Acting)交错进行,Thought-Action-Observation 循环 |
| 2023.03 | Tree-of-Thoughts (ToT) | Yao et al. (Princeton/Google) | BFS/DFS 搜索多条推理路径,自评估剪枝 |
| 2023.05 | Chain-of-Verification (CoVe) | Meta AI | 生成→验证→修正,减少幻觉的四步法 |
| 2023.08 | Graph-of-Thoughts (GoT) | G. Besta et al. (ETH) | 有向图结构建模推理过程,支持合并、循环等操作 |
范式特征
- 无外部工具:完全依赖 LLM 自身的推理能力
- 思维建模:关注如何组织 LLM 的”思考过程”
- 纯 Prompting:不改变模型结构,通过 prompt 工程实现
- 静态执行:一次推理生成完整响应,无外部交互
关键洞察
CoT → ToT → GoT 的演进体现了从线性思维向图结构思维的扩展。但从 ReAct 开始,范式发生了根本性转变——LLM 不再只是一个”思考者”,而是开始与环境交互。
第二波:工具使用与行动循环 (2023)
核心问题:如何让 LLM 与外部世界交互?
里程碑
| 时间 | 技术 | 贡献者 | 核心思想 |
|---|---|---|---|
| 2023.02 | Toolformer | Schick et al. (Meta) | 自监督学习工具调用(API、计算器、搜索等) |
| 2023.05 | ART (Automatic Reasoning & Tool-use) | Paranjape et al. (AI2) | 自动构建推理-工具使用程序库 |
| 2023.06 | ReWoo (Reasoning WithOut Observation) | Xu et al. (KFAIR) | 先规划再执行,将 ReAct 的观察延迟到推理完成后 |
| 2023.06 | Lilian Weng Agent Framework | OpenAI | 系统提出 Agent 三组件:Planning、Memory、Tool Use |
| 2023.07 | OpenAI Function Calling | OpenAI | 官方结构化工具调用 API,成为行业标准 |
| 2023.09 | Reflexion | Shinn et al. (Northeastern) | 通过语言反馈和自我反思迭代改进 |
| 2023.10 | RAG 范式的成熟 | multiple | Retrieval-Augmented Generation 从概念成为 Agent 标配 |
| 2023.11 | GPTs + Actions | OpenAI | 允许用户创建自定义 Agent 并调用外部 API |
范式特征
- Thought-Action-Observation 循环:ReAct 开创的标准模式
- 外部知识获取:RAG、搜索 API
- 工具调用能力:Function Calling 成为模型原生能力
- 自我修正:Reflexion 引入反思机制
关键转折点对比
| 对比维度 | ReAct | ReWoo | Reflexion |
|---|---|---|---|
| 推理时机 | 交错(边想边做) | 先规划后执行 | 执行后反思 |
| 错误处理 | 隐式(靠下轮纠正) | 规划时预防 | 显式反思修正 |
| 适用场景 | 需要即时反馈的任务 | 需全局规划的任务 | 可多次尝试的任务 |
| 效率 | 灵活但 token 开销大 | 减少冗余观察 | 增加反思轮次 |
第三波:自治Agent与实验狂潮 (2023-2024)
核心问题:LLM 能否自主完成端到端任务?
里程碑
| 时间 | 项目 | 类型 | 核心思想 |
|---|---|---|---|
| 2023.03 | AutoGPT | 开源项目 | 长期自治的目标驱动 Agent,循环自我提示 |
| 2023.04 | BabyAGI | 开源项目 | 任务驱动的自治 Agent,动态任务队列+完成检查 |
| 2023.04 | AgentGPT | 开源项目 | Web 界面版的 AutoGPT |
| 2023.05 | GPT-Engineer | 开源项目 | 代码生成Agent:需求 → 技术spec → 编码 |
| 2023.09 | Superagent | 开源项目 | 可配置的 Agent 框架,支持多种 LLM |
| 2023.10 | LangChain Agent | 框架 | 首个主流 Agent 框架,ReAct 模式标准化 |
| 2023.10 | AutoGen | Microsoft | 多 Agent 对话框架,Agent 间协作范式 |
| 2023.11 | CrewAI | 开源 | 角色扮演式多 Agent,Task → Agent → Crew 三层 |
| 2024.01 | MetaGPT | 开源 | 模拟软件公司角色的多 Agent 协作 |
| 2024.03 | Devin | 商业产品 | Cognition AI — 首个”AI 软件工程师” |
| 2024.03 | Claude Code | 商业产品 | Anthropic — 终端内 AI 编码助理 |
| 2024.05 | GPT-4o | 模型发布 | 原生的多模态 Agent 能力(看/听/说) |
| 2024.06 | OpenAI Agents SDK | 框架 | OpenAI 官方 Agent 工具包 |
| 2024.07 | LangGraph | 框架 | LangChain 的图状态 Agent 框架 |
| 2024.09 | Claude Computer Use | API 功能 | Agent 可直接操作桌面/浏览器 |
| 2024.11 | Computer Use Agent | 产品 | Anthropic — 屏幕视觉理解+点击操作 |
范式特征
- 自主循环:Agent 不再需要人类每个步骤的输入
- 长期目标:多步骤、多工具调用完成复杂目标
- 自我优化:反思 + 记忆 + 计划迭代
- 多Agent协作:Agent 间有角色分工与通信
- 多模态:视觉、音频输入成为 Agent 能力
实验狂潮中的关键教训
-
AutoGPT 的过热与退潮
- 开创了”长期自治 Agent”概念
- 痛点:不稳定、token 爆炸、缺少结构化控制
- 启示:纯自治(无人工监督)在真实场景中不实用
-
Devin 的定位争议
- 首个 AI 软件工程师,引起轰动
- 现实:在复杂任务上仍然频繁出错
- 启示:Agent 需要适当的评估标准和期望管理
Dead End 方向盘点
| 方向 | 探索者 | 死因 | 教训 |
|---|---|---|---|
| 完全自治 Agent | AutoGPT 早期 | 不稳定、token 爆炸 | 需要人机协作的 guardrail |
| 纯 Prompt 驱动 Agent(无 fine-tune) | 早期尝试 | 能力天花板明显 | 模型级 Agent 能力更重要 |
| 单一模型包办所有 Agent 任务 | 2023 主流 | 各环节需求矛盾 | 主/工具模型分工 |
| 无限循环自主改进 | 部分实验 | 不可控+幻觉累积 | 需要终止条件和验证 |
第四波:生态标准化与工程成熟 (2024-2026)
核心问题:如何让 Agent 在真实世界中可靠、可组合、可维护?
里程碑
| 时间 | 事件 | 类型 | 核心意义 |
|---|---|---|---|
| 2024.11 | MCP Protocol | 协议标准 | Anthropic 推出 Model Context Protocol — 统一 Agent-工具连接标准 |
| 2024.12 | Anthropic “Building Effective Agents” | 思想指导 | 明确提出”Workflows vs Agents”二分法,倡导简单模式 |
| 2025.03 | Google A2A Protocol | 协议标准 | Agent-to-Agent 通信协议,跨系统 Agent 协作 |
| 2025.03 | OpenAI Agents SDK | SDK | 官方 Agent 构建工具包,简化开发流程 |
| 2025.04 | Manus | 产品 | 通用 Agent 产品,展示 Agent 实用性 |
| 2025.05 | Claude Agent SDK | SDK | Anthropic 官方 Agent SDK |
| 2025.06 | Hermes Agent | 框架 | Nous Research — 全栈 AI Agent 框架(我们的工具) |
| 2025.08 | AWS Strands Agents SDK | SDK | AWS 云原生 Agent SDK |
| 2025.09 | Google ADK | SDK | Google 官方 Agent Development Kit |
| 2025.10 | Codex CLI | 工具 | OpenAI — 终端原生编码 Agent |
| 2026.01 | Gemma 4 系列 | 模型 | Google 开源模型强化 Agent 能力 |
| 2026.05 | 现状:大量 SDK 涌现 | 生态 | 行业从”能否构建”转向”如何标准化” |
范式特征
- 协议标准化:MCP(工具连接)、A2A(Agent间通信)
- SDK 成熟化:每个主要 AI 公司都推出 Agent SDK
- 简单优先:Anthropic 倡导先从简单 workflow 开始
- Workflow vs Agent:明确区分确定性流程和自主决策
- 人机协作:Agent 不是取代人,而是增强人
Workflows vs Agents(Anthropic 2024.12 定义)
Workflows Agents
───────── ──────────
预定义的确定性流程 LLM 自主决策
适合明确可分解的任务 适合需要灵活性的场景
可预测、易调试 不可预测、需监控
例子:Prompt Chaining 例子:自治客服机器人
Routing 代码 Agent
Parallelization 研究 Agent
Orchestrator-Workers Devin
Evaluator-Optimizer
关键转折点深度分析
转折点 1:ReAct (2022.10)
之前 之后
────────── ──────────
LLM 作为"生成器" LLM 作为"决策者"
单轮输入 → 输出 Thought → Action → Observation 循环
无外部状态 内部推理 + 外部观测
影响:ReAct 是 Agent 范式的”奇点”——它第一次让 LLM 与外部环境形成闭环。今天所有 Agent(从 AutoGPT 到 Claude Code)的本质都是 ReAct 的变体或扩展。
转折点 2:Function Calling (2023.06)
之前 之后
────────── ──────────
模型输出自然语言描述工具调用 模型输出结构化 JSON 调用
需外部解析器提取意图 调用参数严格类型化
容易解析失败 可靠函数签名
影响:Function Calling 让 Agent 从”prompt hack”变成了工程化的可靠系统。没有它,MCP、Agent SDK 等上层生态都无法建立。
转折点 3:Agent 分工 — 主/工具模型 (2024)
之前 之后
────────── ──────────
一个模型完成所有 Agent 工作 规划模型 + 执行模型分离
上下文被工具输出撑爆 工具模型运行在隔离环境
推理能力被工具调用稀释 主模型专注推理决策
影响:Hermes Agent 就是这种分工的代表作——主模型(agent model)负责规划和决策,工具模型(tool-use model)负责具体的工具执行和结果处理。
转折点 4:MCP 协议 (2024.11)
之前 之后
────────── ──────────
每个工具需自定义集成 统一协议连接所有工具
n 个工具需 n 个适配器 一个 MCP 客户端连接任意 MCP 服务器
工具变更需重写 Agent 代码 服务器独立演进,客户端自动适配
影响:MCP 是 Agent 生态的”USB 接口”——它让工具集成从点对点变为星型拓扑,是 Agent 从实验走向工程化的关键基础设施。
转折点 5:SDK 标准化 (2025-2026)
| SDK | 公司 | 特点 | 适用场景 |
|---|---|---|---|
| OpenAI Agents SDK | OpenAI | 简洁、与 GPT 系列深度集成 | 快速原型、GPT 生态 |
| Claude Agent SDK | Anthropic | MCP 原生支持、安全优先 | 企业级 Agent |
| Google ADK | A2A 协议、Gemini 生态 | Google Cloud 用户 | |
| LangChain/LangGraph | 社区 | 最成熟的 Agent 框架 | 灵活定制、多模型 |
| CrewAI | 社区 | 角色扮演多 Agent 协作 | 多角色任务 |
| AutoGen | Microsoft | 多 Agent 对话 | 研究实验 |
| Hermes Agent | Nous Research | 全栈 Agent 框架 | 个人/开发者 Agent |
| Strands Agents SDK | AWS | 云原生 | AWS 生态企业 |
Hermes Agent 在演进图谱中的位置
Agent 范式演进树
────────────────────────────────────────────
│
┌───────┴───────┐
│ │
Workflow Agent
│ │
Prompt Chain ReAct 范式
Routing ├──────────
Parallelization │
│
┌─────────┼─────────┐
│ │ │
单 Agent 多 Agent 嵌入 Agent
│ │ │
Hermes Agent AutoGen Function Call
Claude Code CrewAI OpenAI GPTs
Devin MetaGPT
Manus
Hermes Agent 的定位:位于”单 Agent”分支,但支持工具模型分工、MCP 工具集成、可编程 skill 系统、多 Session 上下文共享等高级特性。相比 Claude Code/Devin 侧重编码场景,Hermes Agent 是一个通用的 Agent 框架。
核心架构贡献:
- 主/工具模型架构:agent model + tool-use model 分工
- Skill 系统:可组合的领域知识模块
- Kanban 协作:多 Agent 的异步任务编排
- MCP 原生支持:开放工具生态
- 记忆系统:跨 Session 上下文持久化
范式演进总结
2022 2023 2024 2025 2026
── ── ── ── ──
CoT ReAct ★ AutoGPT MCP ★ SDK 标准化
Function Call ★ Devin A2A Agent 工程化
Toolformer Multi-Agent Manus 共识形成
Reflexion LangGraph Claude Code
── ── ──
"能思考" "能自治" "能标准化"
思考+行动 长期自主 生态互联
工具使用 自我优化 人机协作
核心演进规律:
- 从思考到行动:ReAct 让 LLM 从”想”变成”想+做”
- 从个体到生态:单 Agent → 多 Agent → 协议标准化
- 从实验到工程:AutoGPT 的疯狂 → Anthropic 的”简单优先”
- 从黑箱到透明:End-to-end Agent → 可分解、可调试的 Workflow
- 模型能力的流水线化:单一全能模型 → 主模型+工具模型+验证模型
本文档为 interview-app 项目面试准备材料 相关课题:课题二(跨Session上下文)、课题三(分层记忆系统)、课题五(主/工具模型分工)