主模型推理与工具模型执行分工

概述

将 Agent 系统的推理/思考职责与工具调用/执行职责分离到不同模型上。核心模式:Thinker-Doer 分工

角色模型

角色职责模型要求典型选型
Thinker(主模型)推理、规划、决策、分解强推理、长上下文DeepSeek-R1 / Claude Opus 4
Doer(工具模型)执行、工具调用、格式化低延迟、低成本GPT-4o-mini / Claude Haiku
Router(路由层)判断请求走哪条路径分类准确、极低延迟LLM-as-Judge / 规则引擎
Validator(校验层)检查 Doer 输出质量中等推理规则检查 + LLM 打分

四大驱动因素

  1. 成本 — 高端模型贵 10-100x
  2. 延迟 — 轻量模型快 3-5x
  3. 可靠性 — 错误不跨层传播
  4. 负载分离 — 独立缩放

路由策略谱系

策略延迟成本适用场景
规则路由(关键词/正则)00任务类型可预知
LLM-as-Judge+1 小模型~10-50 tok/次初始阶段
置信度级联最差 2x必要时用贵模型质量要求高
分类器路由~10-50ms几乎零大规模、模式稳定

实践验证

2026-06-07 在 Hermes Agent 中验证:主会话(DeepSeek V4 Flash)+ delegation 子代理(MIMO v2.5 Pro),双模型分工走不同 provider 和 API 端点,互不干扰。

成本对比

方案每千次估算vs 全高端
全 Opus/o3$45-751x
Thinker(10%)+Sonnet(20%)+Haiku(70%)$5-15~1/6
Router+Doer 级联$2-5~1/15

相关页面:agent-cost-optimization thinking-fast-slow-llm agent-task-planning