主模型推理与工具模型执行分工

概述

将 Agent 系统的推理/思考职责与工具调用/执行职责分离到不同模型上。核心模式：Thinker-Doer 分工。

角色模型

角色	职责	模型要求	典型选型
Thinker（主模型）	推理、规划、决策、分解	强推理、长上下文	DeepSeek-R1 / Claude Opus 4
Doer（工具模型）	执行、工具调用、格式化	低延迟、低成本	GPT-4o-mini / Claude Haiku
Router（路由层）	判断请求走哪条路径	分类准确、极低延迟	LLM-as-Judge / 规则引擎
Validator（校验层）	检查 Doer 输出质量	中等推理	规则检查 + LLM 打分

四大驱动因素

成本 — 高端模型贵 10-100x
延迟 — 轻量模型快 3-5x
可靠性 — 错误不跨层传播
负载分离 — 独立缩放

路由策略谱系

策略	延迟	成本	适用场景
规则路由（关键词/正则）	0	0	任务类型可预知
LLM-as-Judge	+1 小模型	~10-50 tok/次	初始阶段
置信度级联	最差 2x	必要时用贵模型	质量要求高
分类器路由	~10-50ms	几乎零	大规模、模式稳定

实践验证

2026-06-07 在 Hermes Agent 中验证：主会话（DeepSeek V4 Flash）+ delegation 子代理（MIMO v2.5 Pro），双模型分工走不同 provider 和 API 端点，互不干扰。

成本对比

方案	每千次估算	vs 全高端
全 Opus/o3	$45-75	1x
Thinker(10%)+Sonnet(20%)+Haiku(70%)	$5-15	~1/6
Router+Doer 级联	$2-5	~1/15

相关页面：agent-cost-optimization thinking-fast-slow-llm agent-task-planning