课题十三:推理成本优化与模型路由策略
成本优化与模型路由
优先级:P2 — Agent 生产落地的经济可行性前提
当前情况
- GenericAgent 的 llmcore.py 已支持多模型(Claude、Gemini、Kimi、MiniMax),但路由策略是硬编码
- ✅ 2026-06-07:Hermes Agent 已验证 DeepSeek V4 Flash(主会话)+ MIMO v2.5 Pro(delegation)双模型路由,两者走不同 provider 和 API 端点
- ✅ 2026-06-07:Headroom 中间代理层已移除,主会话直连 DeepSeek API,去掉了双倍压缩和中间缓存
- Hermes 内置
hermes insights命令支持按天/模型/平台统计 token 消耗和成本,可作为成本追踪基础 - ⏳ 消耗对比数据待采集:去 Headroom + MIMO 路由后的日花费与之前对比,预计 6/8 出数据
- 无语义缓存,相同或相似请求重复调用 API
- 社区已有方案(LiteLLM、OpenRouter)但侧重模型网关而非 Agent 场景的智能路由
研究方向
1. 模型路由策略
- 任务难度分级:简单分类任务用小模型,复杂推理用大模型
- 兜底机制:小模型置信度不足时升级到大模型
- 领域路由:代码题走代码模型,对话走通用模型
- 预算感知路由:月度 token 配额内动态优化模型选择
2. 语义缓存
- 相似输入检测(向量相似度 + 语义哈希)
- 缓存命中时直接返回结果(跳过 LLM 调用)
- 缓存失效策略:时效、版本更新、用户显式清除
- 部分命中:模板化请求的变量替换缓存
3. Token 优化
- Prompt 压缩:去除冗余上下文、精简历史
- 输出长度控制:引导模型输出简洁回答
- 共享上下文窗口:同一 session 内复用 system prompt 的 KV cache
- 批量处理:非实时操作合并为 batch 调用
4. 成本追踪与告警
- 每次调用的模型、token、耗时、费用记录
- 按 session/用户/时间段聚合统计
- 预算阈值告警与自动降级
- 成本/质量报告:辅助模型选型决策
5. 故障切换与热备
- 模型降级路由:主模型(如 Claude)故障时自动切换到备选模型(如 Gemini/DeepSeek),任务不中断
- 预算触发降级:月度配额耗尽时自动切换到低成本模型,维持核心功能可用
- 模型切换策略与主模型/工具模型分工(课题五)共享同一路由决策层,切换策略和降级条件由课题二十二(自我验证与恢复)定义
- 热备模型状态预热:备选模型保持最小连接池,切换延迟控制在 <1s
6. 优化工具的组合效应分析
引入多层优化工具时,它们之间可能互相抵消,需要整体审视而非层层叠加。
实战案例:Headroom 代理 vs DeepSeek Prefix Caching 冲突
- 问题:在 DeepSeek 前加 Headroom 压缩代理,预期降成本,实际效果相反
- 根因:Headroom 的压缩改变了消息结构,打断了 DeepSeek 的 prefix caching(缓存命中价仅 $0.0028/M,全价的2%)
- 结果:40.6% 的压缩节省远不及缓存折扣损失,最终拆掉 Headroom 直连
- 详情:参见
cases/headroom-vs-deepseek-cache.md
验证原则:
- 每次只引入一个优化层
- 安装前记录基准线(token 数 + 费用)
- 安装后对比实际效果
- 检查与现有优化层的冲突
- API 定价以官方文档为准(A 级信息源),第三方博客标注”需验证”
实践方案:Compound AI 三层插件(2026-06-08)
课题十三的缓存+路由方向已进入设计层,以 Hermes Compound AI 插件为载体。
该方案将课题十三的两个核心研究方向——语义缓存和模型路由策略——整合为一个通用 Hermes 插件,三层架构如下:
① 语义缓存层
| 课题十三方向 | 插件实现 |
|---|---|
| 相似输入检测 | embedding(本地 bge-m3)+ 余弦相似度,阈值可配(如 0.92) |
| 缓存命中直接返回 | 跳过 LLM 调用,延迟从 ~5s 降到 ~10ms |
| 缓存失效策略 | TTL 配置 + 版本变更时主动失效 |
| 部分命中 | 模板化请求的变量替换缓存(预留) |
② 模型路由层
将课题十三的”任务难度分级”和”领域路由”工程化为 Hermes pre_llm_call hook:
- 简单分类/翻译 → 本地模型(ollama,零成本)
- 中等对话/生成 → 快速 API 模型(如 DeepSeek Chat)
- 复杂推理/多步任务 → 慢速强推理模型(如 Claude Sonnet)
- 兜底机制:小模型置信度不足时自动升级到下一级
与课题十三的关系
课题十三研究方向 → 插件实现 → 落地效果
语义缓存(向量+哈希) → ① cache layer embed 检索 → 重复请求零延迟零成本
模型路由策略(分级+领域) → ② router layer 复杂度判断 → 简单问题不走贵模型
预算感知路由 → 路由层可加剩余配额感知 → 配额不足时自动降级
优化工具组合效应分析 → 三层统一框架,避免冲突 → 单层可独立开关测试
详见 Compound AI 插件设计(待创建)。
可探索方向
- 模型选择的效果-成本 Pareto 前沿
- 缓存替换策略对 Agent 任务命中率的影响
- 不同任务类型的最佳模型匹配模式
- 混合部署(本地小模型 + 云端大模型)的成本模型
- 跨 session 的长期缓存复用可行性
- DeepSeek 推理缓存的命中优化(参考 deepseek-reasonix 项目)——不同模型的 KV cache 特性差异对缓存策略的影响
关联课题
- agent-task-planning — 规划结果缓存可以复用
- agent-memory-system — 记忆系统可作为缓存的后端
- agent-evaluation-framework — 成本/质量 trade-off 的评估
- ai-society-impact — 成本降低加速技术普及,放大社会影响
- main-tool-model — Router 层设计参考了课题五的 Thinker-Router-Doer 架构
- thinking-fast-slow-llm — 双系统理论是本方案缓存+路由的理论基础
- Compound AI — 本课题的缓存+路由已纳入 Compound AI 插件实践方向
参考资料
- LiteLLM 的模型路由实现
- OpenRouter 的多模型网关设计
- GPTCache / GPTCache 项目
- Semantic Cache 相关论文 | 各大模型 API 定价分析 |- DeepSeek-V4-Pro — 1.6T 总参/49B 激活 MoE,MIT 协议,开源性价比标杆 |- Memvid — 简化 RAG pipeline 降低存储与检索成本 |- Headroom — Token 压缩代理(已排除,见 cases/headroom-vs-deepseek-cache.md)
实战案例
参见 cases/ 目录下的具体排查记录。