课题十五：双系统推理：快思考与慢思考

优先级：P2 — 与 Agent 推理能力、成本优化、评估框架等多个课题有交叉

核心洞察

Kahneman 在《思考快与慢》中提出的双系统理论：System 1（快思考）是自动、直觉、模式匹配的；System 2（慢思考）是 deliberative、分析、需要认知努力的。LLM 的默认行为本质上是一种 System 1 — 基于训练数据中的模式做快速 token 预测。而近年来”让 LLM 慢下来思考”的技术路线（CoT、Self-Consistency、Reflection）本质上是在给 LLM 外挂或内置 System 2。

可探索方向

LLM 原生推理是否就是 System 1（模式匹配），而我们试图做的一切推理增强都是在模拟 System 2？
System 1 的偏误（确认偏误、锚定效应、可得性启发等）在 LLM 中是否有对应表现？
如何在 System 1 的速度与 System 2 的准确性之间做最优权衡？
双系统架构能否成为 Agent 系统的统一理论框架？

快思考 (System 1)

LLM 的默认推理模式实质上就是一种 System 1：

直出回答：直接生成 token，无显式推理过程
模式匹配：依靠训练数据中学到的模式来回答
速度快、成本低：一次前向传播即可输出
易受偏误影响：有研究显示 LLM 存在锚定效应、框架效应等认知偏误

慢思考 (System 2)

为了让 LLM 做更可靠的推理，社区发明了一系列”慢思考”技术：

推理层面

技术	核心思想	对应 System 2 特征
Chain-of-Thought	显式推理链	分步推理、逐步逼近答案
Self-Consistency	多次采样取众数	从多个角度验证、减少随机误差
Tree-of-Thoughts	分支探索与回溯	搜索式推理、考虑多种可能性
Graph-of-Thoughts	更灵活的推理图	非线性推理、创造性连接
ReAct	推理+行动循环	观察-思考-行动的完整循环
Reflexion	反思与修正	对自身输出进行批判性评估

模型层面

OpenAI o1/o3、DeepSeek R1：在模型内部进行”隐藏推理”，用更多计算换取更可靠的输出
Quiet STAR (Self-Taught Reasoner)：让模型在回答前 internally 进行推理链扩增
System 2 Attention：在生成前先做 context 去噪，减少无关信息干扰

关键问题

1. LLM 的”偏误”与人类 System 1 偏误的对应关系

Kahneman 列举的认知偏误在 LLM 中多有复现：

锚定效应：前文提供的数据会影响 LLM 后续数值估算
可得性启发：训练数据中出现频率高的回答更易被优先输出
确认偏误：LLM 在长对话中倾向于维持已有立场
框架效应：同一问题的不同表述方式影响回答方向

这引出一个有趣的问题：这些偏误是训练数据的固有特征，还是自回归架构的本质属性？

2. 速度-准确率权衡

# 快思考 vs 慢思考的典型成本对比
# GPT-4 simple QA: ~0.1s, ~$0.001
# GPT-4 + CoT:   ~1s,   ~$0.005
# GPT-4 + ToT:   ~10s,  ~$0.05
# o1 reasoning:  ~20s,  ~$0.10

如何在任务复杂度与推理成本之间做最优选择？理想情况下应有一个路由机制，简单问题走 System 1，复杂问题自动切换到 System 2。

3. 双系统架构作为 Agent 的统一框架

当前 Agent 系统有多种推理策略选择，但缺少统一的决策理论。“快与慢”双系统理论可能提供这样一个框架：

System 1 Agent：快速工具调用、简单问答、日常操作
System 2 Agent：复杂规划、多步推理、自我修正、需外部验证的任务
Router：判断当前任务属于哪种类型，动态分配处理路径

这正是 agent-cost-optimization 和 agent-task-planning 两个课题的交汇点。

工程实践：Compound AI 三层插件（2026-06-08）

课题十五的”双系统架构能否成为 Agent 系统的统一理论框架”已得到工程回答。

Compound AI 插件将 Kahneman 的双系统理论映射为三层可运行架构：

理论	工程实现	插件层
System 1：快、直觉、模式匹配	语义缓存（embedding 相似度匹配）	① 缓存层
System 1→System 2 切换	Router 判断复杂度 + 缓存 miss	② 路由层
System 2：慢、分析、多角度	多模型 voting/chain/debate 协作	③ 多模型层

关键映射

缓存命中 = System 1：嵌入向量匹配，毫秒级返回，零推理成本。本质上是对历史答案的模式匹配，对应 Kahneman 的 System 1 直觉判断。
路由的复杂度分级 = System 1 的”监控”：Kahneman 的 System 1 持续监控环境，遇到困难问题才唤起 System 2。Router 同样：简单问题走快速模型（System 1），只有复杂问题才触发多模型协作（System 2）。
多模型协作 = System 2：多个模型各自推理→聚合/投票/辩论，对应 System 2 的分析、比较、验证。

核心 insight

课题十五一直在问的问题——“双系统架构能否成为 Agent 系统的统一理论框架”——这个插件的三层设计就是对它的工程回答：能，而且可以做成一个通用的 Hermes 插件。

详见 Compound AI 插件设计（待创建）。

关联课题

课题一（Agent 范式演进） — 从 CoT/ReAct 到双系统推理的技术演进脉络
课题五（模型推理与工具执行分工） — 快/慢模型的分工本身就是一种双系统设计
课题六（复杂任务规划与动态分解） — System 2 的规划和反思能力是复杂任务的核心
课题十（LLM 评估方法与回归测试） — 评估框架需要区分快/慢推理的不同指标和测试策略
课题十二（Agent 可解释性与推理透明化） — System 2 的显式推理过程提供了可解释性
课题十三（推理成本优化与模型路由策略） — 快/慢推理的路由策略直接影响成本
课题二十二（自我验证与自动评判） — 快思考的输出需要经过慢思考的验证环节
课题二十六（Agent 自我演进） — 双系统之间的学习反馈机制是自我演进的核心

需要进一步整理的参考资料

Kahneman, D. “Thinking, Fast and Slow” (2011)
Wei et al. “Chain-of-Thought Prompting Elicits Reasoning in LLMs” (2022)
Yao et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023)
Shinn et al. “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)
Weston et al. “System 2 Attention” (2024)
Zelikman et al. “Quiet-STaR” (2024)
DeepSeek R1 / OpenAI o1 技术报告
Hagendorff et al. “Thinking Fast and Slow in Large Language Models” — LLM 中的双系统偏误分析

经典理论映射

Out of the Tar Pit（Moseley & Marks, 2006）指出软件复杂度的真正来源是状态（state） 和控制（control），应该最小化两者。这在双系统框架下有了新视角：

System 1（快思考） 本质上是一个状态驱动的模式匹配器——它的复杂度来自训练数据中隐式的海量”状态”（模式）
System 2（慢思考） 是一个控制驱动的分析器——它的复杂度来自显式的推理步骤和验证回路

Out of the Tar Pit 的”最小化状态和控制”原则，在 Agent 语境下意味着：慢思考（System 2）不是可选的——没有验证环节的纯 System 1 Agent，状态失控只是时间问题。但同样，System 2 的控制流本身也引入复杂度，需要在两者间找到平衡点。

孙雪健的数字花园

探索

README