研究课题索引

研究课题按 5 层架构组织，共 26 个课题。

课题生命周期：理论底座

本模型参考两个成熟理论框架：

Design Science Research (DSR) — 信息系统领域构建 artifact 的研究方法论。核心是”构建→评估”迭代循环，强调构建系统本身就是研究，产出不只有论文，还包括可运行系统、设计原则、决策知识。
Double Diamond（双钻模型） — 英国设计委员会标准，强调发散（调研/探索）与收敛（定义/决策）交替进行。

两者共同指向一个关键机制：每层之间必须有显性的评估网关，不能无意识地线性推进。

生命周期总览

每个课题推进时，你只需关注”我现在在哪一层，要做什么才能到下一层”。当前状态标记在每个课题 README 顶部。

                ┌─ 认知层 ──────────────────┐
                │ 问题定义 → 场景 → 调研     │  发散：看全貌
                └────────────┬─────────────┘
                             │ Gate 1: 这个方向值得做吗？
                             ▼
                ┌─ 设计层 ──────────────────┐
                │ 架构 → ADR → 原型验证      │  收敛：定方案
                └────────────┬─────────────┘
                             │ Gate 2: 方案可行吗？
                             ▼
                ┌─ 落地层 ──────────────────┐
                │ WBS → 执行 → 评估           │  执行：出结果
                └────────────┬─────────────┘
                             │
                             ▼
                ┌─ 反思层 ──────────────────┐
                │ 知识归档 → 更新假设 → 决策  │  沉淀：留资产
                └────────────┬─────────────┘
                             │ 回到认知层或启动新课题

每层节点：你需要做什么

Layer 1：认知层 — “这个方向值得做吗？”

你需要做的：

写问题定义 — 一句话说清要解决什么。遇到什么具体问题让你觉得需要研究这个？
写场景描述 — 描述具体使用场景，说清楚”谁在什么情况下需要这个能力”，越具体越好
告诉我”去调研” — 我负责搜集现有方案、技术路线、社区/学术最新进展，回来汇总给你
做可行性判断 — 看完调研结果，你来判断：技术上能做吗？代价多大？现有方案能满足吗？

产出：README 更新（问题定义 + 场景 + 调研结论）

Gate 1 检查清单（你来问自己）：

我知道研究的问题是什么（一句话说清）
我知道有谁在做类似的事，差异在哪
我知道技术上大致可行（或知道要验证什么）
我判断这个方向值得投入时间

→ 如果全部勾上，进入设计层。否则继续调研或搁置。

Layer 2：设计层 — “方案可行吗？”

你需要做的：

确认架构设计 — 我出架构方案（组件、接口、数据流），你来 review 和拍板
做关键决策 — 有些 trade-off 需要你定（比如选 A 方案还是 B 方案），定下来后我记录到 ADR
决定原型范围 — 挑一个最不确定的点做最小原型验证。你来定”做到什么程度就算验证了”
看原型结果 — 原型跑完后，你判断：核心假设验证了吗？方案要调整还是可以继续？

产出：架构文档 + ADR 决策记录 + 原型验证报告

Gate 2 检查清单：

架构设计通过了你的 review
关键决策记录了”为什么选 A 不选 B”
核心假设已通过原型验证
你知道接下来要做什么、分几步

→ 如果全部勾上，进入落地层。否则回到架构/原型环节。

Layer 3：落地层 — “做完了，结果如何？”

你需要做的：

拆 WBS — 我帮你把执行计划拆成 kanban 任务，你来排优先级
定义成功指标 — 你说”做到什么程度算做好了”（不一定是量化的，可以是”能跑、不崩、够用”）
执行 — 按 kanban 任务逐项推进，你验收每个任务
参与评估 — 做完了你亲自用一遍，告诉我好不好用、哪里不对

产出：可运行系统 + kanban 执行记录

进入反思层的条件： 系统能用，你觉得”基本达到了当初想要的效果”。

Layer 4：反思层 — “学到了什么？”

你需要做的：

回顾关键决策 — 我列出这次走过的所有决策点，你看有没有要补充的 hindsight
沉淀知识 — 你判断哪些经验值得归档到研究课题文档
决定下一步 — 这个课题算阶段性完成，还是要进入下一轮迭代？如果继续，从认知层还是设计层重新开始？

产出：研究成果文档（决策记录 + 验证结论 + 经验教训）

快速参考卡

节点	你做什么	我做什么	输出
认知层	写问题、定场景、拍可行性	搜方案、整理对比	README 更新
Gate 1	判断是否值得做	—	决策：做/不做
设计层	拍板架构、做决策、看原型	出方案、做原型	ADR + 验证数据
Gate 2	判断方案是否可行	—	决策：继续/调整
落地层	排优先级、验收、试用	按 WBS 执行	系统 + 任务记录
反思层	沉淀知识、定 next step	汇总决策 + 经验	研究成果文档

当前进度

19 个课题（含十六~~十八质量战略层观察课题）大部分在 Layer 1→2 之间，7 个新增课题（二十~~二十六）在认知层初始化中。README 中的”当前情况”和”可探索方向”属于 Layer 1，但缺少 Layer 2 的关键决策记录和 Layer 3 的落地计划。

元认知与认知框架

#	课题	说明
一	Agent 范式演进与关键技术转折	从 CoT/ReAct 到 Agent 的技术演进脉络
二	跨 Session 上下文共享与连续性	跨 Channel/Session 上下文共享
二十	自回归模型局限与”Hot Mess”问题	注意力机制的固有限制与错误累积
二十六	Agent 自我演进	Agent 自主提升能力的学习与进化机制

基础设施层

#	课题	说明
三	分层记忆系统与长期记忆管理	Agent 记忆系统
四	Agent 执行沙箱与 Harness 工程	Harness 工程实践
五	主模型推理与工具模型执行分工	主模型与工具模型的配合使用
六	复杂任务规划与动态分解	任务规划与分解
七	Agent 工具学习与自主扩展	Agent 工具学习与自主扩展
八	多 Agent 协作与通信协议	多 Agent 协作与通信
九	多模态感知与环境交互	多模态 Agent 感知
十九	Agent 开发工作流	如何高效开发、测试、迭代 agent（方法层）
二十一	MCP）	标准化通信协议与跨平台互操作
二十三	非人类身份管理与 Agent 治理	API Key/Token/NHI 生命周期与权限边界
二十四	具身 Agent 与物理世界交互	物理世界感知、数字孪生与 LAM
二十五	数据质量与遗留系统集成	数据质量、系统集成与”技术债税”
二十七	Skill 生命周期治理	Skill 创建→使用→归档→防重建→合并的全生命周期

核心能力层

#	课题	说明
十	LLM 评估方法与回归测试	LLM 输出评估 + Agent 行为回归测试（含 Mock/Trace 断言/用例治理）
十一	Agent 安全边界与行为对齐	Agent 安全与行为边界
十二	Agent 可解释性与推理透明化	Agent 可解释性与调试
十三	推理成本优化与模型路由策略	成本优化与模型路由
十四	人机协作与渐进式自主	人机协作与渐进式自主
十五	双系统推理：快思考与慢思考	Kahneman 双系统理论与大模型结合
二十二	自我验证与自动评判	自我验证 + 故障检测与自动恢复（含恢复策略/状态一致性/优雅降级）

质量与战略层

#	课题	说明
十六	AI 驱动的技术趋势发现	AI 发现引擎
十七	AI 与人类学科交叉融合	AI 与人类传统学科融合
十八	AI 社会影响与治理	人工智能对社会发展的影响

实践方向（非课题编号，多课题结论汇聚落地）

实践	说明	涉及课题	状态
Compound AI 三层插件	三层：语义缓存→模型路由→多模型协作。Hermes 通用插件	五/八/十三/十五/三	认知层
原	从零构建 Agent 系统，综合各课题设计结论，含司南记忆路由层。设计文档已移至 `docs/项目设计/origin/`	一/二/三/六/十/十五	设计层

探索

_index

研究课题索引

课题生命周期：理论底座

生命周期总览

每层节点：你需要做什么

Layer 1：认知层 — “这个方向值得做吗？”

Layer 2：设计层 — “方案可行吗？”

Layer 3：落地层 — “做完了，结果如何？”

Layer 4：反思层 — “学到了什么？”

快速参考卡

当前进度

元认知与认知框架

基础设施层

核心能力层

质量与战略层

实践方向（非课题编号，多课题结论汇聚落地）