研究课题索引

研究课题按 5 层架构组织,共 26 个课题。

课题生命周期:理论底座

本模型参考两个成熟理论框架:

  • Design Science Research (DSR) — 信息系统领域构建 artifact 的研究方法论。核心是”构建→评估”迭代循环,强调构建系统本身就是研究,产出不只有论文,还包括可运行系统、设计原则、决策知识。
  • Double Diamond(双钻模型) — 英国设计委员会标准,强调发散(调研/探索)与收敛(定义/决策)交替进行。

两者共同指向一个关键机制:每层之间必须有显性的评估网关,不能无意识地线性推进。


生命周期总览

每个课题推进时,你只需关注”我现在在哪一层,要做什么才能到下一层”。当前状态标记在每个课题 README 顶部。

                ┌─ 认知层 ──────────────────┐
                │ 问题定义 → 场景 → 调研     │  发散:看全貌
                └────────────┬─────────────┘
                             │ Gate 1: 这个方向值得做吗?
                             ▼
                ┌─ 设计层 ──────────────────┐
                │ 架构 → ADR → 原型验证      │  收敛:定方案
                └────────────┬─────────────┘
                             │ Gate 2: 方案可行吗?
                             ▼
                ┌─ 落地层 ──────────────────┐
                │ WBS → 执行 → 评估           │  执行:出结果
                └────────────┬─────────────┘
                             │
                             ▼
                ┌─ 反思层 ──────────────────┐
                │ 知识归档 → 更新假设 → 决策  │  沉淀:留资产
                └────────────┬─────────────┘
                             │ 回到认知层或启动新课题

每层节点:你需要做什么

Layer 1:认知层 — “这个方向值得做吗?”

你需要做的:

  1. 写问题定义 — 一句话说清要解决什么。遇到什么具体问题让你觉得需要研究这个?
  2. 写场景描述 — 描述具体使用场景,说清楚”谁在什么情况下需要这个能力”,越具体越好
  3. 告诉我”去调研” — 我负责搜集现有方案、技术路线、社区/学术最新进展,回来汇总给你
  4. 做可行性判断 — 看完调研结果,你来判断:技术上能做吗?代价多大?现有方案能满足吗?

产出:README 更新(问题定义 + 场景 + 调研结论)

Gate 1 检查清单(你来问自己):

  • 我知道研究的问题是什么(一句话说清)
  • 我知道有谁在做类似的事,差异在哪
  • 我知道技术上大致可行(或知道要验证什么)
  • 我判断这个方向值得投入时间

→ 如果全部勾上,进入设计层。否则继续调研或搁置。


Layer 2:设计层 — “方案可行吗?”

你需要做的:

  1. 确认架构设计 — 我出架构方案(组件、接口、数据流),你来 review 和拍板
  2. 做关键决策 — 有些 trade-off 需要你定(比如选 A 方案还是 B 方案),定下来后我记录到 ADR
  3. 决定原型范围 — 挑一个最不确定的点做最小原型验证。你来定”做到什么程度就算验证了”
  4. 看原型结果 — 原型跑完后,你判断:核心假设验证了吗?方案要调整还是可以继续?

产出:架构文档 + ADR 决策记录 + 原型验证报告

Gate 2 检查清单:

  • 架构设计通过了你的 review
  • 关键决策记录了”为什么选 A 不选 B”
  • 核心假设已通过原型验证
  • 你知道接下来要做什么、分几步

→ 如果全部勾上,进入落地层。否则回到架构/原型环节。


Layer 3:落地层 — “做完了,结果如何?”

你需要做的:

  1. 拆 WBS — 我帮你把执行计划拆成 kanban 任务,你来排优先级
  2. 定义成功指标 — 你说”做到什么程度算做好了”(不一定是量化的,可以是”能跑、不崩、够用”)
  3. 执行 — 按 kanban 任务逐项推进,你验收每个任务
  4. 参与评估 — 做完了你亲自用一遍,告诉我好不好用、哪里不对

产出:可运行系统 + kanban 执行记录

进入反思层的条件: 系统能用,你觉得”基本达到了当初想要的效果”。


Layer 4:反思层 — “学到了什么?”

你需要做的:

  1. 回顾关键决策 — 我列出这次走过的所有决策点,你看有没有要补充的 hindsight
  2. 沉淀知识 — 你判断哪些经验值得归档到研究课题文档
  3. 决定下一步 — 这个课题算阶段性完成,还是要进入下一轮迭代?如果继续,从认知层还是设计层重新开始?

产出:研究成果文档(决策记录 + 验证结论 + 经验教训)


快速参考卡

节点你做什么我做什么输出
认知层写问题、定场景、拍可行性搜方案、整理对比README 更新
Gate 1判断是否值得做决策:做/不做
设计层拍板架构、做决策、看原型出方案、做原型ADR + 验证数据
Gate 2判断方案是否可行决策:继续/调整
落地层排优先级、验收、试用按 WBS 执行系统 + 任务记录
反思层沉淀知识、定 next step汇总决策 + 经验研究成果文档

当前进度

19 个课题(含十六十八质量战略层观察课题)大部分在 Layer 1→2 之间,7 个新增课题(二十二十六)在认知层初始化中。README 中的”当前情况”和”可探索方向”属于 Layer 1,但缺少 Layer 2 的关键决策记录和 Layer 3 的落地计划。

元认知与认知框架

#课题说明
Agent 范式演进与关键技术转折从 CoT/ReAct 到 Agent 的技术演进脉络
跨 Session 上下文共享与连续性跨 Channel/Session 上下文共享
二十自回归模型局限与”Hot Mess”问题注意力机制的固有限制与错误累积
二十六Agent 自我演进Agent 自主提升能力的学习与进化机制

基础设施层

#课题说明
分层记忆系统与长期记忆管理Agent 记忆系统
Agent 执行沙箱与 Harness 工程Harness 工程实践
主模型推理与工具模型执行分工主模型与工具模型的配合使用
复杂任务规划与动态分解任务规划与分解
Agent 工具学习与自主扩展Agent 工具学习与自主扩展
多 Agent 协作与通信协议多 Agent 协作与通信
多模态感知与环境交互多模态 Agent 感知
十九Agent 开发工作流如何高效开发、测试、迭代 agent(方法层)
二十一MCP)标准化通信协议与跨平台互操作
二十三非人类身份管理与 Agent 治理API Key/Token/NHI 生命周期与权限边界
二十四具身 Agent 与物理世界交互物理世界感知、数字孪生与 LAM
二十五数据质量与遗留系统集成数据质量、系统集成与”技术债税”
二十七Skill 生命周期治理Skill 创建→使用→归档→防重建→合并的全生命周期

核心能力层

#课题说明
LLM 评估方法与回归测试LLM 输出评估 + Agent 行为回归测试(含 Mock/Trace 断言/用例治理)
十一Agent 安全边界与行为对齐Agent 安全与行为边界
十二Agent 可解释性与推理透明化Agent 可解释性与调试
十三推理成本优化与模型路由策略成本优化与模型路由
十四人机协作与渐进式自主人机协作与渐进式自主
十五双系统推理:快思考与慢思考Kahneman 双系统理论与大模型结合
二十二自我验证与自动评判自我验证 + 故障检测与自动恢复(含恢复策略/状态一致性/优雅降级)

质量与战略层

#课题说明
十六AI 驱动的技术趋势发现AI 发现引擎
十七AI 与人类学科交叉融合AI 与人类传统学科融合
十八AI 社会影响与治理人工智能对社会发展的影响

实践方向(非课题编号,多课题结论汇聚落地)

实践说明涉及课题状态
Compound AI 三层插件三层:语义缓存→模型路由→多模型协作。Hermes 通用插件五/八/十三/十五/三认知层
从零构建 Agent 系统,综合各课题设计结论,含司南记忆路由层。设计文档已移至 docs/项目设计/origin/一/二/三/六/十/十五设计层