课题五:主模型推理与工具模型执行分工

| 状态:Layer 1(认知层)调研完成 | Gate 1 待确认 | | 调研日期:2026-05-30 | 第 3 次迭代 |

关联课题:课题十三(推理成本优化与模型路由策略)、课题十五(双系统推理:快思考与慢思考) 调研报告(完整版):本文档即完整 Layer 1 认知层调研报告


1. 问题定义

核心问题:在一个 AI Agent 系统中,是否应该将推理/思考职责与工具调用/执行职责分离到两个不同的模型上?

起源:测试 Ollama 本地模型时发现的模式——translategemma:4b(3.3GB)专做翻译,大模型只做核心生成。这个偶然发现引出了系统化探索。

✅ 2026-06-07 实践验证:Hermes Agent 中实现了主会话(DeepSeek V4 Flash)+ delegation子代理(MIMO v2.5 Pro)的双模型分工,两者走不同 provider 和 API 端点,互不干扰。验证了 Thinker-Doer 模型在实操层面的可行,但关键发现是delegation 配置变更需完全重启进程才能生效(CLI_CONFIG 是进程级缓存)。详见课题十三的实践记录。

2. 核心概念:Thinker-Doer 分工模式

角色职责模型要求典型选型(2025-2026)
Thinker(主模型)推理、规划、决策、分解强推理、长上下文DeepSeek-R1 / Claude Opus 4 / GPT-4o / o3
Doer(工具模型)执行、工具调用、格式化低延迟、低成本GPT-4o-mini / Claude Haiku 3.5 / DeepSeek-V3
Router(路由层)判断请求走哪条路径分类准确、极低延迟LLM-as-Judge / 小BERT / 规则引擎
Validator(校验层)检查 Doer 输出质量中等推理规则检查 + LLM 打分

四大驱动因素:成本(高端贵10-100x)、延迟(快3-5x)、可靠性(错误不跨层传播)、负载分离(独立缩放)

3. 路由策略谱系

策略延迟成本准确度适用场景
规则路由(关键词/正则)00★★任务类型可预知的场景
LLM-as-Judge+1次小模型调用~10-50 tokens/次★★★初始阶段,零配置
置信度级联(doer→thinker)最差2倍only必要时用贵模型★★★★质量要求高、延迟容忍
分类器路由(EMB+ML)~10-50ms几乎零★★★★大规模、模式稳定
语义相似度(缓存)~10-30ms零(命中时)★★★重复率高场景

推荐路径:Phase 1 用规则路由(零成本启动)→ Phase 2 LLM-as-Judge(采集数据)→ Phase 3 升级到分类器路由

4. 主流架构模式

Anthropic 五种模式(“Building effective agents”, 2024-12)

Workflows(预定路径):Prompt Chaining / Routing ★ / Parallelization / Orchestrator-Worker
Agents(自主体):LLM + Tool Use 循环

推荐 MVP:Thinker→Router→Doer

用户请求 → [Router] → 简单 → [Doer] 直接处理
                    → 中等 → [Thinker 规划] → [Doer 执行] → [Validator]
                    → 复杂 → [Thinker 深度推理] → [Doer 格式化] → [Validator]

5. 成本优化对比

方案每千次估算vs 全高端等效质量
全 Opus/o3$45-751x100%
Thinker(10%)+Sonnet(20%)+Haiku(70%)$5-15~1/6~90-95%
Router+Doer 级联$2-5~1/15~85-90%
分类器路由+Doer(90%)+Thinker(10%)$1-3~1/30~80-85%

interview-app 估算:Router+Doer 月均成本 5-10,成本降低 75-80%

6. 业界实践

公司/项目模式路由方式成熟度
OpenAI o1+4oThinker(推理)→Doer(通用)内部管道生产级
DeepSeek R1+V3Thinker(推理)→Doer(生成)推理 token 输出生产级
Anthropic Claude同一模型 tool use系统层处理生产级
OpenRouter平台级路由Fallback/Routers API生产级
LiteLLMSDK 路由Router 组件生产级

2025-2026 趋势:平台内置路由、推理+通用模型分工固化、低成本模型使 Doer 成本趋近于零、混合本地/云端

7. 风险与缓解

风险缓解
误路由(简单→复杂)→ 成本浪费回收阈值收敛
误路由(复杂→简单)→ 质量下降短 timeout 自动升级
状态传递开销 → 上下文重复结构化接口+共享 KV cache
Doer 幻觉放大 → 错误累积Validator 层校验
级联延迟 → 用户体验差最大级联深度2-3级

8. 与关联课题的关系

  • 课题十三(成本优化):成本优化是本课题核心驱动之一。课题十三关注工具层面(缓存+token优化),本课题关注架构层面(模型分工)。Compound AI 插件的 Router 层将两者统一
  • 课题十五(双系统推理):双系统理论是本课题的理论基础。课题十五从认知心理学解释”为何分工”,本课题从工程实践设计”如何分工”
  • 课题六(任务规划):Thinker 的规划输出是分工前提
  • 课题十二(可解释性):分工后每步可单独追踪
  • Compound AI 插件(实践方向):课题五的 Router 角色已在该插件中得到工程实现

9. 实践对接:Compound AI 插件的 Router 层

课题五的 Router 组件已得到工程实装,纳入 Compound AI 插件方案。

Compound AI 插件的②路由层正是课题五推荐的 Thinker→Router→Doer 模式中 Router 的具体实现:

课题五推荐 MVP:用户 → [Router] → 简单 → [Doer]
                                 → 复杂 → [Thinker 规划] → [Doer 执行]
Compound AI:    用户 → [① Cache] → [② Router] → 简单 → 本地/快速模型
                                                → 中等 → API 快速模型
                                                → 复杂 → [③ 多模型层]

路由策略映射

课题五路由策略Compound AI 实现对应层
规则路由(关键词/正则)Router 初始化阶段
语义相似度(缓存)① 缓存层(命中直接返回)
置信度级联(doer→thinker)Router 降级:简单→中等→复杂
LLM-as-JudgeRouter 可选:调用 mini LLM 判断复杂度
分类器路由(EMB+ML)Router 进阶:embedding + 分类器

对比课题五的推荐演进路径(Phase 1 规则路由 → Phase 2 LLM-as-Judge → Phase 3 分类器路由),Compound AI 插件的 Router 层支持从简到繁渐进升级,且不破坏下游的多模型处理层接口。

详见 Compound AI 插件设计(待创建)。

10. 落地建议

Phase 1(当前):单一模型验证业务,零风险 Phase 2(下阶段):prompt 内弱分工 + 采集真实分布数据 Phase 3:显式 Router+Doer,YAML 配置路由策略

10. 进度

  • 2026-05-29 课题立项,写入研究文档
  • 2026-05-29 补充 Hermes Agent 视角的见解与实践关联
  • 2026-05-30 Layer 1 调研完成 — 路由策略、成本优化、性能对比、架构模式全覆盖
  • Gate 1 确认:进入设计层(Layer 2)

11. 参考资料

  1. Anthropic, “Building effective agents” (2024-12-19)
  2. OpenAI o1/o3 reasoning model 文档
  3. DeepSeek R1 技术报告
  4. OpenRouter Docs — Model Fallbacks & Routers API
  5. LiteLLM Router 文档
  6. LangChain Router — LLM-as-Judge
  7. Together AI Routing API
  8. 课题十三:推理成本优化与模型路由策略
  9. 课题十五:双系统推理:快思考与慢思考

经典理论映射

钱学森工程控制论(1954)的多级递阶控制(hierarchical control)直接对应 Thinker-Doer 架构。在 Qian 的框架中,高层控制器处理抽象策略和长期目标(Thinker 的推理规划),低层控制器处理具体动作和快速响应(Doer 的工具执行),控制器之间通过”不变量”保持一致性——高层输出的抽象指令被低层实例化时,必须保持高层约束不被违反。这正是 Validator 层存在的理论依据:它不是可选的检查,而是递阶控制中保证层级间一致性的必要机制。同一定理也暗示了最佳层级深度(2-3 级)——过多层级会引入”控制延迟”(延迟增加)和”信息衰减”(约束在传递中变形)。