推理成本优化与模型路由策略

概述

LLM API 的成本和延迟直接影响 Agent 的可用性。核心策略是通过模型路由、语义缓存和 token 优化降低成本。

实践验证

2026-06-07 Hermes Agent 双模型路由验证：

主模型：DeepSeek V4 Flash（推理/规划）
委托模型：MIMO v2.5 Pro（工具执行）
两者走不同 provider 和 API 端点
已移除 Headroom 中间件

优化策略

策略	效果	复杂度
模型路由	成本降低 6-15x	中
语义缓存	减少重复计算	低
Token 压缩	减少上下文长度	低
上下文窗口管理	减少浪费	中

成本对比

方案	每千次估算	vs 全高端
全 Opus/o3	$45-75	1x
Thinker+Sonnet+Haiku	$5-15	~1/6
Router+Doer 级联	$2-5	~1/15

相关页面：main-tool-model thinking-fast-slow-llm agent-harness-engineering