课题十五:双系统推理:快思考与慢思考

优先级:P2 — 与 Agent 推理能力、成本优化、评估框架等多个课题有交叉

核心洞察

Kahneman 在《思考快与慢》中提出的双系统理论:System 1(快思考)是自动、直觉、模式匹配的;System 2(慢思考)是 deliberative、分析、需要认知努力的。LLM 的默认行为本质上是一种 System 1 — 基于训练数据中的模式做快速 token 预测。而近年来”让 LLM 慢下来思考”的技术路线(CoT、Self-Consistency、Reflection)本质上是在给 LLM 外挂或内置 System 2。

可探索方向

  • LLM 原生推理是否就是 System 1(模式匹配),而我们试图做的一切推理增强都是在模拟 System 2?
  • System 1 的偏误(确认偏误、锚定效应、可得性启发等)在 LLM 中是否有对应表现?
  • 如何在 System 1 的速度与 System 2 的准确性之间做最优权衡?
  • 双系统架构能否成为 Agent 系统的统一理论框架?

快思考 (System 1)

LLM 的默认推理模式实质上就是一种 System 1:

  • 直出回答:直接生成 token,无显式推理过程
  • 模式匹配:依靠训练数据中学到的模式来回答
  • 速度快、成本低:一次前向传播即可输出
  • 易受偏误影响:有研究显示 LLM 存在锚定效应、框架效应等认知偏误

慢思考 (System 2)

为了让 LLM 做更可靠的推理,社区发明了一系列”慢思考”技术:

推理层面

技术核心思想对应 System 2 特征
Chain-of-Thought显式推理链分步推理、逐步逼近答案
Self-Consistency多次采样取众数从多个角度验证、减少随机误差
Tree-of-Thoughts分支探索与回溯搜索式推理、考虑多种可能性
Graph-of-Thoughts更灵活的推理图非线性推理、创造性连接
ReAct推理+行动循环观察-思考-行动的完整循环
Reflexion反思与修正对自身输出进行批判性评估

模型层面

  • OpenAI o1/o3、DeepSeek R1:在模型内部进行”隐藏推理”,用更多计算换取更可靠的输出
  • Quiet STAR (Self-Taught Reasoner):让模型在回答前 internally 进行推理链扩增
  • System 2 Attention:在生成前先做 context 去噪,减少无关信息干扰

关键问题

1. LLM 的”偏误”与人类 System 1 偏误的对应关系

Kahneman 列举的认知偏误在 LLM 中多有复现:

  • 锚定效应:前文提供的数据会影响 LLM 后续数值估算
  • 可得性启发:训练数据中出现频率高的回答更易被优先输出
  • 确认偏误:LLM 在长对话中倾向于维持已有立场
  • 框架效应:同一问题的不同表述方式影响回答方向

这引出一个有趣的问题:这些偏误是训练数据的固有特征,还是自回归架构的本质属性?

2. 速度-准确率权衡

# 快思考 vs 慢思考的典型成本对比
# GPT-4 simple QA: ~0.1s, ~$0.001
# GPT-4 + CoT:   ~1s,   ~$0.005
# GPT-4 + ToT:   ~10s,  ~$0.05
# o1 reasoning:  ~20s,  ~$0.10

如何在任务复杂度与推理成本之间做最优选择?理想情况下应有一个路由机制,简单问题走 System 1,复杂问题自动切换到 System 2。

3. 双系统架构作为 Agent 的统一框架

当前 Agent 系统有多种推理策略选择,但缺少统一的决策理论。“快与慢”双系统理论可能提供这样一个框架:

  • System 1 Agent:快速工具调用、简单问答、日常操作
  • System 2 Agent:复杂规划、多步推理、自我修正、需外部验证的任务
  • Router:判断当前任务属于哪种类型,动态分配处理路径

这正是 agent-cost-optimizationagent-task-planning 两个课题的交汇点。

工程实践:Compound AI 三层插件(2026-06-08)

课题十五的”双系统架构能否成为 Agent 系统的统一理论框架”已得到工程回答。

Compound AI 插件将 Kahneman 的双系统理论映射为三层可运行架构:

理论工程实现插件层
System 1:快、直觉、模式匹配语义缓存(embedding 相似度匹配)① 缓存层
System 1→System 2 切换Router 判断复杂度 + 缓存 miss② 路由层
System 2:慢、分析、多角度多模型 voting/chain/debate 协作③ 多模型层

关键映射

  • 缓存命中 = System 1:嵌入向量匹配,毫秒级返回,零推理成本。本质上是对历史答案的模式匹配,对应 Kahneman 的 System 1 直觉判断。
  • 路由的复杂度分级 = System 1 的”监控”:Kahneman 的 System 1 持续监控环境,遇到困难问题才唤起 System 2。Router 同样:简单问题走快速模型(System 1),只有复杂问题才触发多模型协作(System 2)。
  • 多模型协作 = System 2:多个模型各自推理→聚合/投票/辩论,对应 System 2 的分析、比较、验证。

核心 insight

课题十五一直在问的问题——“双系统架构能否成为 Agent 系统的统一理论框架”——这个插件的三层设计就是对它的工程回答:能,而且可以做成一个通用的 Hermes 插件。

详见 Compound AI 插件设计(待创建)。

关联课题

  • 课题一(Agent 范式演进) — 从 CoT/ReAct 到双系统推理的技术演进脉络
  • 课题五(模型推理与工具执行分工) — 快/慢模型的分工本身就是一种双系统设计
  • 课题六(复杂任务规划与动态分解) — System 2 的规划和反思能力是复杂任务的核心
  • 课题十(LLM 评估方法与回归测试) — 评估框架需要区分快/慢推理的不同指标和测试策略
  • 课题十二(Agent 可解释性与推理透明化) — System 2 的显式推理过程提供了可解释性
  • 课题十三(推理成本优化与模型路由策略) — 快/慢推理的路由策略直接影响成本
  • 课题二十二(自我验证与自动评判) — 快思考的输出需要经过慢思考的验证环节
  • 课题二十六(Agent 自我演进) — 双系统之间的学习反馈机制是自我演进的核心

需要进一步整理的参考资料

  • Kahneman, D. “Thinking, Fast and Slow” (2011)
  • Wei et al. “Chain-of-Thought Prompting Elicits Reasoning in LLMs” (2022)
  • Yao et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023)
  • Shinn et al. “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)
  • Weston et al. “System 2 Attention” (2024)
  • Zelikman et al. “Quiet-STaR” (2024)
  • DeepSeek R1 / OpenAI o1 技术报告
  • Hagendorff et al. “Thinking Fast and Slow in Large Language Models” — LLM 中的双系统偏误分析

经典理论映射

Out of the Tar Pit(Moseley & Marks, 2006)指出软件复杂度的真正来源是状态(state)控制(control),应该最小化两者。这在双系统框架下有了新视角:

  • System 1(快思考) 本质上是一个状态驱动的模式匹配器——它的复杂度来自训练数据中隐式的海量”状态”(模式)
  • System 2(慢思考) 是一个控制驱动的分析器——它的复杂度来自显式的推理步骤和验证回路

Out of the Tar Pit 的”最小化状态和控制”原则,在 Agent 语境下意味着:慢思考(System 2)不是可选的——没有验证环节的纯 System 1 Agent,状态失控只是时间问题。但同样,System 2 的控制流本身也引入复杂度,需要在两者间找到平衡点。