研究课题索引
研究课题按 5 层架构组织,共 26 个课题。
课题生命周期:理论底座
本模型参考两个成熟理论框架:
- Design Science Research (DSR) — 信息系统领域构建 artifact 的研究方法论。核心是”构建→评估”迭代循环,强调构建系统本身就是研究,产出不只有论文,还包括可运行系统、设计原则、决策知识。
- Double Diamond(双钻模型) — 英国设计委员会标准,强调发散(调研/探索)与收敛(定义/决策)交替进行。
两者共同指向一个关键机制:每层之间必须有显性的评估网关,不能无意识地线性推进。
生命周期总览
每个课题推进时,你只需关注”我现在在哪一层,要做什么才能到下一层”。当前状态标记在每个课题 README 顶部。
┌─ 认知层 ──────────────────┐
│ 问题定义 → 场景 → 调研 │ 发散:看全貌
└────────────┬─────────────┘
│ Gate 1: 这个方向值得做吗?
▼
┌─ 设计层 ──────────────────┐
│ 架构 → ADR → 原型验证 │ 收敛:定方案
└────────────┬─────────────┘
│ Gate 2: 方案可行吗?
▼
┌─ 落地层 ──────────────────┐
│ WBS → 执行 → 评估 │ 执行:出结果
└────────────┬─────────────┘
│
▼
┌─ 反思层 ──────────────────┐
│ 知识归档 → 更新假设 → 决策 │ 沉淀:留资产
└────────────┬─────────────┘
│ 回到认知层或启动新课题
每层节点:你需要做什么
Layer 1:认知层 — “这个方向值得做吗?”
你需要做的:
- 写问题定义 — 一句话说清要解决什么。遇到什么具体问题让你觉得需要研究这个?
- 写场景描述 — 描述具体使用场景,说清楚”谁在什么情况下需要这个能力”,越具体越好
- 告诉我”去调研” — 我负责搜集现有方案、技术路线、社区/学术最新进展,回来汇总给你
- 做可行性判断 — 看完调研结果,你来判断:技术上能做吗?代价多大?现有方案能满足吗?
产出:README 更新(问题定义 + 场景 + 调研结论)
Gate 1 检查清单(你来问自己):
- 我知道研究的问题是什么(一句话说清)
- 我知道有谁在做类似的事,差异在哪
- 我知道技术上大致可行(或知道要验证什么)
- 我判断这个方向值得投入时间
→ 如果全部勾上,进入设计层。否则继续调研或搁置。
Layer 2:设计层 — “方案可行吗?”
你需要做的:
- 确认架构设计 — 我出架构方案(组件、接口、数据流),你来 review 和拍板
- 做关键决策 — 有些 trade-off 需要你定(比如选 A 方案还是 B 方案),定下来后我记录到 ADR
- 决定原型范围 — 挑一个最不确定的点做最小原型验证。你来定”做到什么程度就算验证了”
- 看原型结果 — 原型跑完后,你判断:核心假设验证了吗?方案要调整还是可以继续?
产出:架构文档 + ADR 决策记录 + 原型验证报告
Gate 2 检查清单:
- 架构设计通过了你的 review
- 关键决策记录了”为什么选 A 不选 B”
- 核心假设已通过原型验证
- 你知道接下来要做什么、分几步
→ 如果全部勾上,进入落地层。否则回到架构/原型环节。
Layer 3:落地层 — “做完了,结果如何?”
你需要做的:
- 拆 WBS — 我帮你把执行计划拆成 kanban 任务,你来排优先级
- 定义成功指标 — 你说”做到什么程度算做好了”(不一定是量化的,可以是”能跑、不崩、够用”)
- 执行 — 按 kanban 任务逐项推进,你验收每个任务
- 参与评估 — 做完了你亲自用一遍,告诉我好不好用、哪里不对
产出:可运行系统 + kanban 执行记录
进入反思层的条件: 系统能用,你觉得”基本达到了当初想要的效果”。
Layer 4:反思层 — “学到了什么?”
你需要做的:
- 回顾关键决策 — 我列出这次走过的所有决策点,你看有没有要补充的 hindsight
- 沉淀知识 — 你判断哪些经验值得归档到研究课题文档
- 决定下一步 — 这个课题算阶段性完成,还是要进入下一轮迭代?如果继续,从认知层还是设计层重新开始?
产出:研究成果文档(决策记录 + 验证结论 + 经验教训)
快速参考卡
| 节点 | 你做什么 | 我做什么 | 输出 |
|---|---|---|---|
| 认知层 | 写问题、定场景、拍可行性 | 搜方案、整理对比 | README 更新 |
| Gate 1 | 判断是否值得做 | — | 决策:做/不做 |
| 设计层 | 拍板架构、做决策、看原型 | 出方案、做原型 | ADR + 验证数据 |
| Gate 2 | 判断方案是否可行 | — | 决策:继续/调整 |
| 落地层 | 排优先级、验收、试用 | 按 WBS 执行 | 系统 + 任务记录 |
| 反思层 | 沉淀知识、定 next step | 汇总决策 + 经验 | 研究成果文档 |
当前进度
19 个课题(含十六十八质量战略层观察课题)大部分在 Layer 1→2 之间,7 个新增课题(二十二十六)在认知层初始化中。README 中的”当前情况”和”可探索方向”属于 Layer 1,但缺少 Layer 2 的关键决策记录和 Layer 3 的落地计划。
元认知与认知框架
| # | 课题 | 说明 |
|---|---|---|
| 一 | Agent 范式演进与关键技术转折 | 从 CoT/ReAct 到 Agent 的技术演进脉络 |
| 二 | 跨 Session 上下文共享与连续性 | 跨 Channel/Session 上下文共享 |
| 二十 | 自回归模型局限与”Hot Mess”问题 | 注意力机制的固有限制与错误累积 |
| 二十六 | Agent 自我演进 | Agent 自主提升能力的学习与进化机制 |
基础设施层
| # | 课题 | 说明 |
|---|---|---|
| 三 | 分层记忆系统与长期记忆管理 | Agent 记忆系统 |
| 四 | Agent 执行沙箱与 Harness 工程 | Harness 工程实践 |
| 五 | 主模型推理与工具模型执行分工 | 主模型与工具模型的配合使用 |
| 六 | 复杂任务规划与动态分解 | 任务规划与分解 |
| 七 | Agent 工具学习与自主扩展 | Agent 工具学习与自主扩展 |
| 八 | 多 Agent 协作与通信协议 | 多 Agent 协作与通信 |
| 九 | 多模态感知与环境交互 | 多模态 Agent 感知 |
| 十九 | Agent 开发工作流 | 如何高效开发、测试、迭代 agent(方法层) |
| 二十一 | MCP) | 标准化通信协议与跨平台互操作 |
| 二十三 | 非人类身份管理与 Agent 治理 | API Key/Token/NHI 生命周期与权限边界 |
| 二十四 | 具身 Agent 与物理世界交互 | 物理世界感知、数字孪生与 LAM |
| 二十五 | 数据质量与遗留系统集成 | 数据质量、系统集成与”技术债税” |
| 二十七 | Skill 生命周期治理 | Skill 创建→使用→归档→防重建→合并的全生命周期 |
核心能力层
| # | 课题 | 说明 |
|---|---|---|
| 十 | LLM 评估方法与回归测试 | LLM 输出评估 + Agent 行为回归测试(含 Mock/Trace 断言/用例治理) |
| 十一 | Agent 安全边界与行为对齐 | Agent 安全与行为边界 |
| 十二 | Agent 可解释性与推理透明化 | Agent 可解释性与调试 |
| 十三 | 推理成本优化与模型路由策略 | 成本优化与模型路由 |
| 十四 | 人机协作与渐进式自主 | 人机协作与渐进式自主 |
| 十五 | 双系统推理:快思考与慢思考 | Kahneman 双系统理论与大模型结合 |
| 二十二 | 自我验证与自动评判 | 自我验证 + 故障检测与自动恢复(含恢复策略/状态一致性/优雅降级) |
质量与战略层
| # | 课题 | 说明 |
|---|---|---|
| 十六 | AI 驱动的技术趋势发现 | AI 发现引擎 |
| 十七 | AI 与人类学科交叉融合 | AI 与人类传统学科融合 |
| 十八 | AI 社会影响与治理 | 人工智能对社会发展的影响 |
实践方向(非课题编号,多课题结论汇聚落地)
| 实践 | 说明 | 涉及课题 | 状态 |
|---|---|---|---|
| Compound AI 三层插件 | 三层:语义缓存→模型路由→多模型协作。Hermes 通用插件 | 五/八/十三/十五/三 | 认知层 |
| 原 | 从零构建 Agent 系统,综合各课题设计结论,含司南记忆路由层。设计文档已移至 docs/项目设计/origin/ | 一/二/三/六/十/十五 | 设计层 |