主模型推理与工具模型执行分工
概述
将 Agent 系统的推理/思考职责与工具调用/执行职责分离到不同模型上。核心模式:Thinker-Doer 分工。
角色模型
| 角色 | 职责 | 模型要求 | 典型选型 |
|---|---|---|---|
| Thinker(主模型) | 推理、规划、决策、分解 | 强推理、长上下文 | DeepSeek-R1 / Claude Opus 4 |
| Doer(工具模型) | 执行、工具调用、格式化 | 低延迟、低成本 | GPT-4o-mini / Claude Haiku |
| Router(路由层) | 判断请求走哪条路径 | 分类准确、极低延迟 | LLM-as-Judge / 规则引擎 |
| Validator(校验层) | 检查 Doer 输出质量 | 中等推理 | 规则检查 + LLM 打分 |
四大驱动因素
- 成本 — 高端模型贵 10-100x
- 延迟 — 轻量模型快 3-5x
- 可靠性 — 错误不跨层传播
- 负载分离 — 独立缩放
路由策略谱系
| 策略 | 延迟 | 成本 | 适用场景 |
|---|---|---|---|
| 规则路由(关键词/正则) | 0 | 0 | 任务类型可预知 |
| LLM-as-Judge | +1 小模型 | ~10-50 tok/次 | 初始阶段 |
| 置信度级联 | 最差 2x | 必要时用贵模型 | 质量要求高 |
| 分类器路由 | ~10-50ms | 几乎零 | 大规模、模式稳定 |
实践验证
2026-06-07 在 Hermes Agent 中验证:主会话(DeepSeek V4 Flash)+ delegation 子代理(MIMO v2.5 Pro),双模型分工走不同 provider 和 API 端点,互不干扰。
成本对比
| 方案 | 每千次估算 | vs 全高端 |
|---|---|---|
| 全 Opus/o3 | $45-75 | 1x |
| Thinker(10%)+Sonnet(20%)+Haiku(70%) | $5-15 | ~1/6 |
| Router+Doer 级联 | $2-5 | ~1/15 |
相关页面:agent-cost-optimization thinking-fast-slow-llm agent-task-planning