课题五：主模型推理与工具模型执行分工

关联课题：课题十三（推理成本优化与模型路由策略）、课题十五（双系统推理：快思考与慢思考）调研报告（完整版）：本文档即完整 Layer 1 认知层调研报告

1. 问题定义

核心问题：在一个 AI Agent 系统中，是否应该将推理/思考职责与工具调用/执行职责分离到两个不同的模型上？

起源：测试 Ollama 本地模型时发现的模式——translategemma:4b（3.3GB）专做翻译，大模型只做核心生成。这个偶然发现引出了系统化探索。

✅ 2026-06-07 实践验证：Hermes Agent 中实现了主会话（DeepSeek V4 Flash）+ delegation子代理（MIMO v2.5 Pro）的双模型分工，两者走不同 provider 和 API 端点，互不干扰。验证了 Thinker-Doer 模型在实操层面的可行，但关键发现是delegation 配置变更需完全重启进程才能生效（CLI_CONFIG 是进程级缓存）。详见课题十三的实践记录。

2. 核心概念：Thinker-Doer 分工模式

角色	职责	模型要求	典型选型（2025-2026）
Thinker（主模型）	推理、规划、决策、分解	强推理、长上下文	DeepSeek-R1 / Claude Opus 4 / GPT-4o / o3
Doer（工具模型）	执行、工具调用、格式化	低延迟、低成本	GPT-4o-mini / Claude Haiku 3.5 / DeepSeek-V3
Router（路由层）	判断请求走哪条路径	分类准确、极低延迟	LLM-as-Judge / 小BERT / 规则引擎
Validator（校验层）	检查 Doer 输出质量	中等推理	规则检查 + LLM 打分

四大驱动因素：成本（高端贵10-100x）、延迟（快3-5x）、可靠性（错误不跨层传播）、负载分离（独立缩放）

3. 路由策略谱系

策略	延迟	成本	准确度	适用场景
规则路由（关键词/正则）	0	0	★★	任务类型可预知的场景
LLM-as-Judge	+1次小模型调用	~10-50 tokens/次	★★★	初始阶段，零配置
置信度级联（doer→thinker）	最差2倍	only必要时用贵模型	★★★★	质量要求高、延迟容忍
分类器路由（EMB+ML）	~10-50ms	几乎零	★★★★	大规模、模式稳定
语义相似度（缓存）	~10-30ms	零（命中时）	★★★	重复率高场景

推荐路径：Phase 1 用规则路由（零成本启动）→ Phase 2 LLM-as-Judge（采集数据）→ Phase 3 升级到分类器路由

4. 主流架构模式

Anthropic 五种模式（“Building effective agents”, 2024-12）

Workflows（预定路径）：Prompt Chaining / Routing ★ / Parallelization / Orchestrator-Worker
Agents（自主体）：LLM + Tool Use 循环

推荐 MVP：Thinker→Router→Doer

用户请求 → [Router] → 简单 → [Doer] 直接处理
                    → 中等 → [Thinker 规划] → [Doer 执行] → [Validator]
                    → 复杂 → [Thinker 深度推理] → [Doer 格式化] → [Validator]

5. 成本优化对比

方案	每千次估算	vs 全高端	等效质量
全 Opus/o3	$45-75	1x	100%
Thinker(10%)+Sonnet(20%)+Haiku(70%)	$5-15	~1/6	~90-95%
Router+Doer 级联	$2-5	~1/15	~85-90%
分类器路由+Doer(90%)+Thinker(10%)	$1-3	~1/30	~80-85%

interview-app 估算：Router+Doer 月均成本 $1 - 3 v s 全 S o nn e t$ 5-10，成本降低 75-80%

6. 业界实践

公司/项目	模式	路由方式	成熟度
OpenAI o1+4o	Thinker(推理)→Doer(通用)	内部管道	生产级
DeepSeek R1+V3	Thinker(推理)→Doer(生成)	推理 token 输出	生产级
Anthropic Claude	同一模型 tool use	系统层处理	生产级
OpenRouter	平台级路由	Fallback/Routers API	生产级
LiteLLM	SDK 路由	Router 组件	生产级

2025-2026 趋势：平台内置路由、推理+通用模型分工固化、低成本模型使 Doer 成本趋近于零、混合本地/云端

7. 风险与缓解

风险	缓解
误路由（简单→复杂）→ 成本浪费	回收阈值收敛
误路由（复杂→简单）→ 质量下降	短 timeout 自动升级
状态传递开销 → 上下文重复	结构化接口+共享 KV cache
Doer 幻觉放大 → 错误累积	Validator 层校验
级联延迟 → 用户体验差	最大级联深度2-3级

8. 与关联课题的关系

课题十三（成本优化）：成本优化是本课题核心驱动之一。课题十三关注工具层面（缓存+token优化），本课题关注架构层面（模型分工）。Compound AI 插件的 Router 层将两者统一
课题十五（双系统推理）：双系统理论是本课题的理论基础。课题十五从认知心理学解释”为何分工”，本课题从工程实践设计”如何分工”
课题六（任务规划）：Thinker 的规划输出是分工前提
课题十二（可解释性）：分工后每步可单独追踪
Compound AI 插件（实践方向）：课题五的 Router 角色已在该插件中得到工程实现

9. 实践对接：Compound AI 插件的 Router 层

课题五的 Router 组件已得到工程实装，纳入 Compound AI 插件方案。

Compound AI 插件的②路由层正是课题五推荐的 Thinker→Router→Doer 模式中 Router 的具体实现：

课题五推荐 MVP：用户 → [Router] → 简单 → [Doer]
                                 → 复杂 → [Thinker 规划] → [Doer 执行]
Compound AI：    用户 → [① Cache] → [② Router] → 简单 → 本地/快速模型
                                                → 中等 → API 快速模型
                                                → 复杂 → [③ 多模型层]

路由策略映射

课题五路由策略	Compound AI 实现	对应层
规则路由（关键词/正则）	Router 初始化阶段	②
语义相似度（缓存）	① 缓存层（命中直接返回）	①
置信度级联（doer→thinker）	Router 降级：简单→中等→复杂	②
LLM-as-Judge	Router 可选：调用 mini LLM 判断复杂度	②
分类器路由（EMB+ML）	Router 进阶：embedding + 分类器	②

对比课题五的推荐演进路径（Phase 1 规则路由 → Phase 2 LLM-as-Judge → Phase 3 分类器路由），Compound AI 插件的 Router 层支持从简到繁渐进升级，且不破坏下游的多模型处理层接口。

详见 Compound AI 插件设计（待创建）。

10. 落地建议

Phase 1（当前）：单一模型验证业务，零风险 Phase 2（下阶段）：prompt 内弱分工 + 采集真实分布数据 Phase 3：显式 Router+Doer，YAML 配置路由策略

10. 进度

2026-05-29 课题立项，写入研究文档
2026-05-29 补充 Hermes Agent 视角的见解与实践关联
2026-05-30 Layer 1 调研完成 — 路由策略、成本优化、性能对比、架构模式全覆盖
Gate 1 确认：进入设计层（Layer 2）

11. 参考资料

Anthropic, “Building effective agents” (2024-12-19)
OpenAI o1/o3 reasoning model 文档
DeepSeek R1 技术报告
OpenRouter Docs — Model Fallbacks & Routers API
LiteLLM Router 文档
LangChain Router — LLM-as-Judge
Together AI Routing API
课题十三：推理成本优化与模型路由策略
课题十五：双系统推理：快思考与慢思考

经典理论映射

钱学森工程控制论（1954）的多级递阶控制（hierarchical control）直接对应 Thinker-Doer 架构。在 Qian 的框架中，高层控制器处理抽象策略和长期目标（Thinker 的推理规划），低层控制器处理具体动作和快速响应（Doer 的工具执行），控制器之间通过”不变量”保持一致性——高层输出的抽象指令被低层实例化时，必须保持高层约束不被违反。这正是 Validator 层存在的理论依据：它不是可选的检查，而是递阶控制中保证层级间一致性的必要机制。同一定理也暗示了最佳层级深度（2-3 级）——过多层级会引入”控制延迟”（延迟增加）和”信息衰减”（约束在传递中变形）。

孙雪健的数字花园

探索

README