「原」AI 母体 — 探索阶段调研报告
日期: 2026-06-05 状态: 探索阶段完成(已调整范围) 下一步: 用户决策进入设计阶段
0. 范围调整(Scope Adjustment)
问题:AI 母体概念过于宏大,可能导致 scope creep(范围蔓延)。
解决方案:
- Why:宏大目标缺乏约束,容易无止境地扩展功能,偏离核心价值
- What:定义”最小种子”(minimal seed) — 感知+推理+行动三核心能力,忽略外部世界交互和进化功能
- How:从单 Agent 开始,限定工具集为内部操作,进化功能延后到后续版本
调整后愿景:最小种子 Agent(Minimal Seed Agent) — 具备感知+推理+行动核心能力
1. 调研结论摘要
AI 母体的核心组件:
- 自我进化机制 — 自适应元学习、代码/逻辑重写、进化搜索
- 感知-行动循环 — 主动感知(POMDP)、层次控制(慢规划器+快执行器)
- 长期记忆 — 情景/语义/程序记忆分离,向量DB+RAG
- 工具使用 — 版本化工具注册、动态调用、沙箱执行
- 学习系统 — 监督+自监督+在线RL,合成数据生成
2. 详细技术方案
2.1 自我进化机制
核心模式:
- 元认知循环 — Agent 反思学习策略,自适应调整
- 代码/逻辑重写 — Agent 可修改自己的元学习算法
- 种群/进化搜索 — 对模块化 Agent 设计进行进化搜索
实现建议:
- within-episode adaptation — 反思、在线更新(性能回退时触发)
- cross-task evolution — 归档和复用步骤代码(Meta-level Hyperagents)
- 自动架构搜索 (NAS) — 组件拓扑和延迟约束
触发条件:
- 性能回归
- 新颖性检测
- 定期改进周期
2.2 感知-行动循环
层次化设计:
┌─────────────────────────────────────┐
│ 快执行器 (Fast Executor) │ 低延迟,本地模型
│ - 响应式操作 │ 确保实时性
└─────────────────────────────────────┘
↓ 监督
┌─────────────────────────────────────┐
│ 慢规划器 (Slow Planner) │ 高延迟,大模型
│ - 生成编码/目标步骤 │ 确保决策质量
│ - 更新目标 │ 长期规划
└─────────────────────────────────────┘
主动感知:
- POMDP(部分可观测马尔可夫决策过程)建模
- 信息增益优化选择感知动作
- RL 或模仿学习提供鲁棒行为
权衡:
- 延迟(快反应循环、本地模型)vs 深思熟虑(大模型、长上下文)
2.3 长期记忆系统
三层记忆架构:
┌─────────────────────────────────────┐
│ 程序记忆 (Procedural) │ 技能、模式
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 语义记忆 (Semantic) │ 事实、概念
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 情景记忆 (Episodic) │ 经验、事件
│ (快速可写/擦除) │
└─────────────────────────────────────┘
技术栈:
- 非参数检索 — 向量DB + RAG
- 记忆控制器 — 联合训练的检索控制器
- 属性索引 — 结构化检索提高准确性
- 巩固/遗忘策略 — 定期整理
评估指标:
- Recall(召回率)
- NDCG(归一化折损累积增益)
- Hallucination rate(幻觉率)
2.4 工具使用与动态扩展
核心能力:
- 版本化工具注册表 — Tool Registry with versioning
- 动态工具调用 — Function schemas, call states (pending/completed/error)
- 热交换沙箱执行器 — Hot-swapping sandboxed executors
- 工具来源追踪 — Provenance for tool outputs
安全性:
- 权限策略
- 运行时沙箱(microVMs 或 gVisor)
- 能力描述 gating
扩展机制:
- 运行时绑定和作用域
- 权限检查
2.5 自主学习系统
学习组合:
- 监督学习(有标签数据)
- 自监督学习
- 离线重放
- 模仿学习
- 在线 RL(online adaptation)
关键模式:
- 合成数据生成 — Agent 生成合成标签数据用于微调
- 自我蒸馏循环 — Self-distillation loops
- 元工具学习 — 将工具使用经验蒸馏为可复用形式
安全护栏:
- 人在环检查点
- 演进 artifact 的归档回滚
- 奖励黑客信号监控
3. 工程实践建议
3.1 系统架构
模块化分层:
┌─────────────────────────────────────┐
│ 监控层 (Observability) │
│ - 成本追踪 │
│ - 幻觉检测 │
│ - 漂移监控 │
│ - 审计日志 │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 执行层 (Execution) │
│ - 工具沙箱 │
│ - 执行器 │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 存储层 (Storage) │
│ - 向量DB │
│ - Artifact repo │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│ 编排层 (Orchestration) │
│ - Agent runtime │
│ - Model gateway │
└─────────────────────────────────────┘
3.2 性能优化
- Prefix/Prompt Caching — 显著提升吞吐量
- Model-level prefix reuse — 成本优化
- 分层缓存 — 热点数据缓存
3.3 评估与治理
评估套件:
- 多任务 Agent 基准(任务成功率、成本、鲁棒性)
- 对抗性工具/攻击套件(安全评估)
治理要求:
- Circuit breakers(断路器)
- High-risk actions 的人机监督
- 回滚工作流
4. 原型建议
第一阶段(最小可行原型):
- 三层运行时 — LLM planner + 执行微服务 + 内存/DB 后端
- 小规模自我进化循环 — Agent 生成合成交互 → 离线微调/蒸馏 → 评估 → 归档
- 显式记忆模块 — 属性索引 + RAG 检索
- 层次规划器/执行器分离 — 实时交互
- 基准评估 — Agent benchmark suites + 对抗攻击测试
5. 研究缺口(Evidence Gaps)
- 公开生产案例 — 部署的生产环境中持续、安全的开放自我进化很少见
- 遗忘策略 — 与试运行工作负载绑定的巩固/遗忘策略详细设计有限
- 奖励设计模式 — 长期开放进化的防止奖励黑客的正式保证未充分文档化
6. 参考文献
- Fully Autonomous AI Agents Should Not be Developed
- Position: Truly Self-Improving Agents Require Intrinsic Metacognitive Learning
- Gödel Agent
- HyperAgents
- MetaAgent: Toward Self-Evolving Agent via Tool Meta-Learning
- A Survey of Self-Evolving Agents
- Autonomous Memory Augmentation for LLM Agents
- How to sandbox AI agents in 2026
- Autonomous AI Agents in Production
- AstaBench: Rigorous benchmarking of AI agents
- EvoAgentX
- Active Perception Behaviors in AI
- AgentDojo Benchmark
7. 用户决策点
问题:AI 母体概念过于宏大,可能导致 scope creep(范围蔓延)。
解决方案:
- Why:宏大目标缺乏约束,容易无止境地扩展功能,偏离核心价值
- What:定义”最小种子”(minimal seed) — 感知+推理+行动三核心能力,忽略外部世界交互和进化功能
- How:从单 Agent 开始,限定工具集为内部操作,进化功能延后到后续版本
调整后愿景:最小种子 Agent(Minimal Seed Agent) — 具备感知+推理+行动核心能力
建议步骤:
- 调研单 Agent 架构的最佳实践(如 LangGraph、CrewAI)
- 定义最小种子需求(可实现的 MVP)
- 输出技术方案 + ADR
- 进入构建阶段
是否同意进入设计阶段?