「原」AI 母体 — 探索阶段调研报告

日期: 2026-06-05 状态: 探索阶段完成（已调整范围） 下一步: 用户决策进入设计阶段

0. 范围调整（Scope Adjustment）

问题：AI 母体概念过于宏大，可能导致 scope creep（范围蔓延）。

解决方案：

Why：宏大目标缺乏约束，容易无止境地扩展功能，偏离核心价值
What：定义”最小种子”（minimal seed） — 感知+推理+行动三核心能力，忽略外部世界交互和进化功能
How：从单 Agent 开始，限定工具集为内部操作，进化功能延后到后续版本

调整后愿景：最小种子 Agent（Minimal Seed Agent） — 具备感知+推理+行动核心能力

1. 调研结论摘要

AI 母体的核心组件：

自我进化机制 — 自适应元学习、代码/逻辑重写、进化搜索
感知-行动循环 — 主动感知（POMDP）、层次控制（慢规划器+快执行器）
长期记忆 — 情景/语义/程序记忆分离，向量DB+RAG
工具使用 — 版本化工具注册、动态调用、沙箱执行
学习系统 — 监督+自监督+在线RL，合成数据生成

2. 详细技术方案

2.1 自我进化机制

核心模式：

元认知循环 — Agent 反思学习策略，自适应调整
代码/逻辑重写 — Agent 可修改自己的元学习算法
种群/进化搜索 — 对模块化 Agent 设计进行进化搜索

实现建议：

within-episode adaptation — 反思、在线更新（性能回退时触发）
cross-task evolution — 归档和复用步骤代码（Meta-level Hyperagents）
自动架构搜索 (NAS) — 组件拓扑和延迟约束

触发条件：

性能回归
新颖性检测
定期改进周期

2.2 感知-行动循环

层次化设计：

┌─────────────────────────────────────┐
│  快执行器 (Fast Executor)            │  低延迟，本地模型
│  - 响应式操作                         │  确保实时性
└─────────────────────────────────────┘
            ↓ 监督
┌─────────────────────────────────────┐
│  慢规划器 (Slow Planner)             │  高延迟，大模型
│  - 生成编码/目标步骤                   │  确保决策质量
│  - 更新目标                           │  长期规划
└─────────────────────────────────────┘

主动感知：

POMDP（部分可观测马尔可夫决策过程）建模
信息增益优化选择感知动作
RL 或模仿学习提供鲁棒行为

权衡：

延迟（快反应循环、本地模型）vs 深思熟虑（大模型、长上下文）

2.3 长期记忆系统

三层记忆架构：

┌─────────────────────────────────────┐
│  程序记忆 (Procedural)               │  技能、模式
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  语义记忆 (Semantic)                 │  事实、概念
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  情景记忆 (Episodic)                 │  经验、事件
│  (快速可写/擦除)                      │
└─────────────────────────────────────┘

技术栈：

非参数检索 — 向量DB + RAG
记忆控制器 — 联合训练的检索控制器
属性索引 — 结构化检索提高准确性
巩固/遗忘策略 — 定期整理

评估指标：

Recall（召回率）
NDCG（归一化折损累积增益）
Hallucination rate（幻觉率）

2.4 工具使用与动态扩展

核心能力：

版本化工具注册表 — Tool Registry with versioning
动态工具调用 — Function schemas, call states (pending/completed/error)
热交换沙箱执行器 — Hot-swapping sandboxed executors
工具来源追踪 — Provenance for tool outputs

安全性：

权限策略
运行时沙箱（microVMs 或 gVisor）
能力描述 gating

扩展机制：

运行时绑定和作用域
权限检查

2.5 自主学习系统

学习组合：

监督学习（有标签数据）
自监督学习
离线重放
模仿学习
在线 RL（online adaptation）

关键模式：

合成数据生成 — Agent 生成合成标签数据用于微调
自我蒸馏循环 — Self-distillation loops
元工具学习 — 将工具使用经验蒸馏为可复用形式

安全护栏：

人在环检查点
演进 artifact 的归档回滚
奖励黑客信号监控

3. 工程实践建议

3.1 系统架构

模块化分层：

┌─────────────────────────────────────┐
│  监控层 (Observability)               │
│  - 成本追踪                          │
│  - 幻觉检测                          │
│  - 漂移监控                          │
│  - 审计日志                          │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  执行层 (Execution)                   │
│  - 工具沙箱                          │
│  - 执行器                            │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  存储层 (Storage)                    │
│  - 向量DB                            │
│  - Artifact repo                     │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  编排层 (Orchestration)               │
│  - Agent runtime                     │
│  - Model gateway                     │
└─────────────────────────────────────┘

3.2 性能优化

Prefix/Prompt Caching — 显著提升吞吐量
Model-level prefix reuse — 成本优化
分层缓存 — 热点数据缓存

3.3 评估与治理

评估套件：

多任务 Agent 基准（任务成功率、成本、鲁棒性）
对抗性工具/攻击套件（安全评估）

治理要求：

Circuit breakers（断路器）
High-risk actions 的人机监督
回滚工作流

4. 原型建议

第一阶段（最小可行原型）：

三层运行时 — LLM planner + 执行微服务 + 内存/DB 后端
小规模自我进化循环 — Agent 生成合成交互 → 离线微调/蒸馏 → 评估 → 归档
显式记忆模块 — 属性索引 + RAG 检索
层次规划器/执行器分离 — 实时交互
基准评估 — Agent benchmark suites + 对抗攻击测试

5. 研究缺口（Evidence Gaps）

公开生产案例 — 部署的生产环境中持续、安全的开放自我进化很少见
遗忘策略 — 与试运行工作负载绑定的巩固/遗忘策略详细设计有限
奖励设计模式 — 长期开放进化的防止奖励黑客的正式保证未充分文档化

6. 参考文献

7. 用户决策点