课题十五:双系统推理:快思考与慢思考
优先级:P2 — 与 Agent 推理能力、成本优化、评估框架等多个课题有交叉
核心洞察
Kahneman 在《思考快与慢》中提出的双系统理论:System 1(快思考)是自动、直觉、模式匹配的;System 2(慢思考)是 deliberative、分析、需要认知努力的。LLM 的默认行为本质上是一种 System 1 — 基于训练数据中的模式做快速 token 预测。而近年来”让 LLM 慢下来思考”的技术路线(CoT、Self-Consistency、Reflection)本质上是在给 LLM 外挂或内置 System 2。
可探索方向
- LLM 原生推理是否就是 System 1(模式匹配),而我们试图做的一切推理增强都是在模拟 System 2?
- System 1 的偏误(确认偏误、锚定效应、可得性启发等)在 LLM 中是否有对应表现?
- 如何在 System 1 的速度与 System 2 的准确性之间做最优权衡?
- 双系统架构能否成为 Agent 系统的统一理论框架?
快思考 (System 1)
LLM 的默认推理模式实质上就是一种 System 1:
- 直出回答:直接生成 token,无显式推理过程
- 模式匹配:依靠训练数据中学到的模式来回答
- 速度快、成本低:一次前向传播即可输出
- 易受偏误影响:有研究显示 LLM 存在锚定效应、框架效应等认知偏误
慢思考 (System 2)
为了让 LLM 做更可靠的推理,社区发明了一系列”慢思考”技术:
推理层面
| 技术 | 核心思想 | 对应 System 2 特征 |
|---|---|---|
| Chain-of-Thought | 显式推理链 | 分步推理、逐步逼近答案 |
| Self-Consistency | 多次采样取众数 | 从多个角度验证、减少随机误差 |
| Tree-of-Thoughts | 分支探索与回溯 | 搜索式推理、考虑多种可能性 |
| Graph-of-Thoughts | 更灵活的推理图 | 非线性推理、创造性连接 |
| ReAct | 推理+行动循环 | 观察-思考-行动的完整循环 |
| Reflexion | 反思与修正 | 对自身输出进行批判性评估 |
模型层面
- OpenAI o1/o3、DeepSeek R1:在模型内部进行”隐藏推理”,用更多计算换取更可靠的输出
- Quiet STAR (Self-Taught Reasoner):让模型在回答前 internally 进行推理链扩增
- System 2 Attention:在生成前先做 context 去噪,减少无关信息干扰
关键问题
1. LLM 的”偏误”与人类 System 1 偏误的对应关系
Kahneman 列举的认知偏误在 LLM 中多有复现:
- 锚定效应:前文提供的数据会影响 LLM 后续数值估算
- 可得性启发:训练数据中出现频率高的回答更易被优先输出
- 确认偏误:LLM 在长对话中倾向于维持已有立场
- 框架效应:同一问题的不同表述方式影响回答方向
这引出一个有趣的问题:这些偏误是训练数据的固有特征,还是自回归架构的本质属性?
2. 速度-准确率权衡
# 快思考 vs 慢思考的典型成本对比
# GPT-4 simple QA: ~0.1s, ~$0.001
# GPT-4 + CoT: ~1s, ~$0.005
# GPT-4 + ToT: ~10s, ~$0.05
# o1 reasoning: ~20s, ~$0.10如何在任务复杂度与推理成本之间做最优选择?理想情况下应有一个路由机制,简单问题走 System 1,复杂问题自动切换到 System 2。
3. 双系统架构作为 Agent 的统一框架
当前 Agent 系统有多种推理策略选择,但缺少统一的决策理论。“快与慢”双系统理论可能提供这样一个框架:
- System 1 Agent:快速工具调用、简单问答、日常操作
- System 2 Agent:复杂规划、多步推理、自我修正、需外部验证的任务
- Router:判断当前任务属于哪种类型,动态分配处理路径
这正是 agent-cost-optimization 和 agent-task-planning 两个课题的交汇点。
工程实践:Compound AI 三层插件(2026-06-08)
课题十五的”双系统架构能否成为 Agent 系统的统一理论框架”已得到工程回答。
Compound AI 插件将 Kahneman 的双系统理论映射为三层可运行架构:
| 理论 | 工程实现 | 插件层 |
|---|---|---|
| System 1:快、直觉、模式匹配 | 语义缓存(embedding 相似度匹配) | ① 缓存层 |
| System 1→System 2 切换 | Router 判断复杂度 + 缓存 miss | ② 路由层 |
| System 2:慢、分析、多角度 | 多模型 voting/chain/debate 协作 | ③ 多模型层 |
关键映射
- 缓存命中 = System 1:嵌入向量匹配,毫秒级返回,零推理成本。本质上是对历史答案的模式匹配,对应 Kahneman 的 System 1 直觉判断。
- 路由的复杂度分级 = System 1 的”监控”:Kahneman 的 System 1 持续监控环境,遇到困难问题才唤起 System 2。Router 同样:简单问题走快速模型(System 1),只有复杂问题才触发多模型协作(System 2)。
- 多模型协作 = System 2:多个模型各自推理→聚合/投票/辩论,对应 System 2 的分析、比较、验证。
核心 insight
课题十五一直在问的问题——“双系统架构能否成为 Agent 系统的统一理论框架”——这个插件的三层设计就是对它的工程回答:能,而且可以做成一个通用的 Hermes 插件。
详见 Compound AI 插件设计(待创建)。
关联课题
- 课题一(Agent 范式演进) — 从 CoT/ReAct 到双系统推理的技术演进脉络
- 课题五(模型推理与工具执行分工) — 快/慢模型的分工本身就是一种双系统设计
- 课题六(复杂任务规划与动态分解) — System 2 的规划和反思能力是复杂任务的核心
- 课题十(LLM 评估方法与回归测试) — 评估框架需要区分快/慢推理的不同指标和测试策略
- 课题十二(Agent 可解释性与推理透明化) — System 2 的显式推理过程提供了可解释性
- 课题十三(推理成本优化与模型路由策略) — 快/慢推理的路由策略直接影响成本
- 课题二十二(自我验证与自动评判) — 快思考的输出需要经过慢思考的验证环节
- 课题二十六(Agent 自我演进) — 双系统之间的学习反馈机制是自我演进的核心
需要进一步整理的参考资料
- Kahneman, D. “Thinking, Fast and Slow” (2011)
- Wei et al. “Chain-of-Thought Prompting Elicits Reasoning in LLMs” (2022)
- Yao et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023)
- Shinn et al. “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)
- Weston et al. “System 2 Attention” (2024)
- Zelikman et al. “Quiet-STaR” (2024)
- DeepSeek R1 / OpenAI o1 技术报告
- Hagendorff et al. “Thinking Fast and Slow in Large Language Models” — LLM 中的双系统偏误分析
经典理论映射
Out of the Tar Pit(Moseley & Marks, 2006)指出软件复杂度的真正来源是状态(state) 和控制(control),应该最小化两者。这在双系统框架下有了新视角:
- System 1(快思考) 本质上是一个状态驱动的模式匹配器——它的复杂度来自训练数据中隐式的海量”状态”(模式)
- System 2(慢思考) 是一个控制驱动的分析器——它的复杂度来自显式的推理步骤和验证回路
Out of the Tar Pit 的”最小化状态和控制”原则,在 Agent 语境下意味着:慢思考(System 2)不是可选的——没有验证环节的纯 System 1 Agent,状态失控只是时间问题。但同样,System 2 的控制流本身也引入复杂度,需要在两者间找到平衡点。