课题五:主模型推理与工具模型执行分工
| 状态:Layer 1(认知层)调研完成 | Gate 1 待确认 | | 调研日期:2026-05-30 | 第 3 次迭代 |
关联课题:课题十三(推理成本优化与模型路由策略)、课题十五(双系统推理:快思考与慢思考) 调研报告(完整版):本文档即完整 Layer 1 认知层调研报告
1. 问题定义
核心问题:在一个 AI Agent 系统中,是否应该将推理/思考职责与工具调用/执行职责分离到两个不同的模型上?
起源:测试 Ollama 本地模型时发现的模式——translategemma:4b(3.3GB)专做翻译,大模型只做核心生成。这个偶然发现引出了系统化探索。
✅ 2026-06-07 实践验证:Hermes Agent 中实现了主会话(DeepSeek V4 Flash)+ delegation子代理(MIMO v2.5 Pro)的双模型分工,两者走不同 provider 和 API 端点,互不干扰。验证了 Thinker-Doer 模型在实操层面的可行,但关键发现是delegation 配置变更需完全重启进程才能生效(CLI_CONFIG 是进程级缓存)。详见课题十三的实践记录。
2. 核心概念:Thinker-Doer 分工模式
| 角色 | 职责 | 模型要求 | 典型选型(2025-2026) |
|---|---|---|---|
| Thinker(主模型) | 推理、规划、决策、分解 | 强推理、长上下文 | DeepSeek-R1 / Claude Opus 4 / GPT-4o / o3 |
| Doer(工具模型) | 执行、工具调用、格式化 | 低延迟、低成本 | GPT-4o-mini / Claude Haiku 3.5 / DeepSeek-V3 |
| Router(路由层) | 判断请求走哪条路径 | 分类准确、极低延迟 | LLM-as-Judge / 小BERT / 规则引擎 |
| Validator(校验层) | 检查 Doer 输出质量 | 中等推理 | 规则检查 + LLM 打分 |
四大驱动因素:成本(高端贵10-100x)、延迟(快3-5x)、可靠性(错误不跨层传播)、负载分离(独立缩放)
3. 路由策略谱系
| 策略 | 延迟 | 成本 | 准确度 | 适用场景 |
|---|---|---|---|---|
| 规则路由(关键词/正则) | 0 | 0 | ★★ | 任务类型可预知的场景 |
| LLM-as-Judge | +1次小模型调用 | ~10-50 tokens/次 | ★★★ | 初始阶段,零配置 |
| 置信度级联(doer→thinker) | 最差2倍 | only必要时用贵模型 | ★★★★ | 质量要求高、延迟容忍 |
| 分类器路由(EMB+ML) | ~10-50ms | 几乎零 | ★★★★ | 大规模、模式稳定 |
| 语义相似度(缓存) | ~10-30ms | 零(命中时) | ★★★ | 重复率高场景 |
推荐路径:Phase 1 用规则路由(零成本启动)→ Phase 2 LLM-as-Judge(采集数据)→ Phase 3 升级到分类器路由
4. 主流架构模式
Anthropic 五种模式(“Building effective agents”, 2024-12)
Workflows(预定路径):Prompt Chaining / Routing ★ / Parallelization / Orchestrator-Worker
Agents(自主体):LLM + Tool Use 循环
推荐 MVP:Thinker→Router→Doer
用户请求 → [Router] → 简单 → [Doer] 直接处理
→ 中等 → [Thinker 规划] → [Doer 执行] → [Validator]
→ 复杂 → [Thinker 深度推理] → [Doer 格式化] → [Validator]
5. 成本优化对比
| 方案 | 每千次估算 | vs 全高端 | 等效质量 |
|---|---|---|---|
| 全 Opus/o3 | $45-75 | 1x | 100% |
| Thinker(10%)+Sonnet(20%)+Haiku(70%) | $5-15 | ~1/6 | ~90-95% |
| Router+Doer 级联 | $2-5 | ~1/15 | ~85-90% |
| 分类器路由+Doer(90%)+Thinker(10%) | $1-3 | ~1/30 | ~80-85% |
interview-app 估算:Router+Doer 月均成本 5-10,成本降低 75-80%
6. 业界实践
| 公司/项目 | 模式 | 路由方式 | 成熟度 |
|---|---|---|---|
| OpenAI o1+4o | Thinker(推理)→Doer(通用) | 内部管道 | 生产级 |
| DeepSeek R1+V3 | Thinker(推理)→Doer(生成) | 推理 token 输出 | 生产级 |
| Anthropic Claude | 同一模型 tool use | 系统层处理 | 生产级 |
| OpenRouter | 平台级路由 | Fallback/Routers API | 生产级 |
| LiteLLM | SDK 路由 | Router 组件 | 生产级 |
2025-2026 趋势:平台内置路由、推理+通用模型分工固化、低成本模型使 Doer 成本趋近于零、混合本地/云端
7. 风险与缓解
| 风险 | 缓解 |
|---|---|
| 误路由(简单→复杂)→ 成本浪费 | 回收阈值收敛 |
| 误路由(复杂→简单)→ 质量下降 | 短 timeout 自动升级 |
| 状态传递开销 → 上下文重复 | 结构化接口+共享 KV cache |
| Doer 幻觉放大 → 错误累积 | Validator 层校验 |
| 级联延迟 → 用户体验差 | 最大级联深度2-3级 |
8. 与关联课题的关系
- 课题十三(成本优化):成本优化是本课题核心驱动之一。课题十三关注工具层面(缓存+token优化),本课题关注架构层面(模型分工)。Compound AI 插件的 Router 层将两者统一
- 课题十五(双系统推理):双系统理论是本课题的理论基础。课题十五从认知心理学解释”为何分工”,本课题从工程实践设计”如何分工”
- 课题六(任务规划):Thinker 的规划输出是分工前提
- 课题十二(可解释性):分工后每步可单独追踪
- Compound AI 插件(实践方向):课题五的 Router 角色已在该插件中得到工程实现
9. 实践对接:Compound AI 插件的 Router 层
课题五的 Router 组件已得到工程实装,纳入 Compound AI 插件方案。
Compound AI 插件的②路由层正是课题五推荐的 Thinker→Router→Doer 模式中 Router 的具体实现:
课题五推荐 MVP:用户 → [Router] → 简单 → [Doer]
→ 复杂 → [Thinker 规划] → [Doer 执行]
Compound AI: 用户 → [① Cache] → [② Router] → 简单 → 本地/快速模型
→ 中等 → API 快速模型
→ 复杂 → [③ 多模型层]
路由策略映射
| 课题五路由策略 | Compound AI 实现 | 对应层 |
|---|---|---|
| 规则路由(关键词/正则) | Router 初始化阶段 | ② |
| 语义相似度(缓存) | ① 缓存层(命中直接返回) | ① |
| 置信度级联(doer→thinker) | Router 降级:简单→中等→复杂 | ② |
| LLM-as-Judge | Router 可选:调用 mini LLM 判断复杂度 | ② |
| 分类器路由(EMB+ML) | Router 进阶:embedding + 分类器 | ② |
对比课题五的推荐演进路径(Phase 1 规则路由 → Phase 2 LLM-as-Judge → Phase 3 分类器路由),Compound AI 插件的 Router 层支持从简到繁渐进升级,且不破坏下游的多模型处理层接口。
详见 Compound AI 插件设计(待创建)。
10. 落地建议
Phase 1(当前):单一模型验证业务,零风险 Phase 2(下阶段):prompt 内弱分工 + 采集真实分布数据 Phase 3:显式 Router+Doer,YAML 配置路由策略
10. 进度
- 2026-05-29 课题立项,写入研究文档
- 2026-05-29 补充 Hermes Agent 视角的见解与实践关联
- 2026-05-30 Layer 1 调研完成 — 路由策略、成本优化、性能对比、架构模式全覆盖
- Gate 1 确认:进入设计层(Layer 2)
11. 参考资料
- Anthropic, “Building effective agents” (2024-12-19)
- OpenAI o1/o3 reasoning model 文档
- DeepSeek R1 技术报告
- OpenRouter Docs — Model Fallbacks & Routers API
- LiteLLM Router 文档
- LangChain Router — LLM-as-Judge
- Together AI Routing API
- 课题十三:推理成本优化与模型路由策略
- 课题十五:双系统推理:快思考与慢思考
经典理论映射
钱学森工程控制论(1954)的多级递阶控制(hierarchical control)直接对应 Thinker-Doer 架构。在 Qian 的框架中,高层控制器处理抽象策略和长期目标(Thinker 的推理规划),低层控制器处理具体动作和快速响应(Doer 的工具执行),控制器之间通过”不变量”保持一致性——高层输出的抽象指令被低层实例化时,必须保持高层约束不被违反。这正是 Validator 层存在的理论依据:它不是可选的检查,而是递阶控制中保证层级间一致性的必要机制。同一定理也暗示了最佳层级深度(2-3 级)——过多层级会引入”控制延迟”(延迟增加)和”信息衰减”(约束在传递中变形)。