课题十三:推理成本优化与模型路由策略

成本优化与模型路由

优先级:P2 — Agent 生产落地的经济可行性前提

当前情况

  • GenericAgent 的 llmcore.py 已支持多模型(Claude、Gemini、Kimi、MiniMax),但路由策略是硬编码
  • ✅ 2026-06-07:Hermes Agent 已验证 DeepSeek V4 Flash(主会话)+ MIMO v2.5 Pro(delegation)双模型路由,两者走不同 provider 和 API 端点
  • ✅ 2026-06-07:Headroom 中间代理层已移除,主会话直连 DeepSeek API,去掉了双倍压缩和中间缓存
  • Hermes 内置 hermes insights 命令支持按天/模型/平台统计 token 消耗和成本,可作为成本追踪基础
  • ⏳ 消耗对比数据待采集:去 Headroom + MIMO 路由后的日花费与之前对比,预计 6/8 出数据
  • 无语义缓存,相同或相似请求重复调用 API
  • 社区已有方案(LiteLLM、OpenRouter)但侧重模型网关而非 Agent 场景的智能路由

研究方向

1. 模型路由策略

  • 任务难度分级:简单分类任务用小模型,复杂推理用大模型
  • 兜底机制:小模型置信度不足时升级到大模型
  • 领域路由:代码题走代码模型,对话走通用模型
  • 预算感知路由:月度 token 配额内动态优化模型选择

2. 语义缓存

  • 相似输入检测(向量相似度 + 语义哈希)
  • 缓存命中时直接返回结果(跳过 LLM 调用)
  • 缓存失效策略:时效、版本更新、用户显式清除
  • 部分命中:模板化请求的变量替换缓存

3. Token 优化

  • Prompt 压缩:去除冗余上下文、精简历史
  • 输出长度控制:引导模型输出简洁回答
  • 共享上下文窗口:同一 session 内复用 system prompt 的 KV cache
  • 批量处理:非实时操作合并为 batch 调用

4. 成本追踪与告警

  • 每次调用的模型、token、耗时、费用记录
  • 按 session/用户/时间段聚合统计
  • 预算阈值告警与自动降级
  • 成本/质量报告:辅助模型选型决策

5. 故障切换与热备

  • 模型降级路由:主模型(如 Claude)故障时自动切换到备选模型(如 Gemini/DeepSeek),任务不中断
  • 预算触发降级:月度配额耗尽时自动切换到低成本模型,维持核心功能可用
  • 模型切换策略与主模型/工具模型分工(课题五)共享同一路由决策层,切换策略和降级条件由课题二十二(自我验证与恢复)定义
  • 热备模型状态预热:备选模型保持最小连接池,切换延迟控制在 <1s

6. 优化工具的组合效应分析

引入多层优化工具时,它们之间可能互相抵消,需要整体审视而非层层叠加。

实战案例:Headroom 代理 vs DeepSeek Prefix Caching 冲突

  • 问题:在 DeepSeek 前加 Headroom 压缩代理,预期降成本,实际效果相反
  • 根因:Headroom 的压缩改变了消息结构,打断了 DeepSeek 的 prefix caching(缓存命中价仅 $0.0028/M,全价的2%)
  • 结果:40.6% 的压缩节省远不及缓存折扣损失,最终拆掉 Headroom 直连
  • 详情:参见 cases/headroom-vs-deepseek-cache.md

验证原则:

  1. 每次只引入一个优化层
  2. 安装前记录基准线(token 数 + 费用)
  3. 安装后对比实际效果
  4. 检查与现有优化层的冲突
  5. API 定价以官方文档为准(A 级信息源),第三方博客标注”需验证”

实践方案:Compound AI 三层插件(2026-06-08)

课题十三的缓存+路由方向已进入设计层,以 Hermes Compound AI 插件为载体。

该方案将课题十三的两个核心研究方向——语义缓存和模型路由策略——整合为一个通用 Hermes 插件,三层架构如下:

① 语义缓存层

课题十三方向插件实现
相似输入检测embedding(本地 bge-m3)+ 余弦相似度,阈值可配(如 0.92)
缓存命中直接返回跳过 LLM 调用,延迟从 ~5s 降到 ~10ms
缓存失效策略TTL 配置 + 版本变更时主动失效
部分命中模板化请求的变量替换缓存(预留)

② 模型路由层

将课题十三的”任务难度分级”和”领域路由”工程化为 Hermes pre_llm_call hook:

  • 简单分类/翻译 → 本地模型(ollama,零成本)
  • 中等对话/生成 → 快速 API 模型(如 DeepSeek Chat)
  • 复杂推理/多步任务 → 慢速强推理模型(如 Claude Sonnet)
  • 兜底机制:小模型置信度不足时自动升级到下一级

与课题十三的关系

课题十三研究方向           →  插件实现                     →  落地效果
语义缓存(向量+哈希)      →  ① cache layer embed 检索      →  重复请求零延迟零成本
模型路由策略(分级+领域)   →  ② router layer 复杂度判断    →  简单问题不走贵模型
预算感知路由               →  路由层可加剩余配额感知         →  配额不足时自动降级
优化工具组合效应分析       →  三层统一框架,避免冲突        →  单层可独立开关测试

详见 Compound AI 插件设计(待创建)。

可探索方向

  • 模型选择的效果-成本 Pareto 前沿
  • 缓存替换策略对 Agent 任务命中率的影响
  • 不同任务类型的最佳模型匹配模式
  • 混合部署(本地小模型 + 云端大模型)的成本模型
  • 跨 session 的长期缓存复用可行性
  • DeepSeek 推理缓存的命中优化(参考 deepseek-reasonix 项目)——不同模型的 KV cache 特性差异对缓存策略的影响

关联课题

参考资料

  • LiteLLM 的模型路由实现
  • OpenRouter 的多模型网关设计
  • GPTCache / GPTCache 项目
  • Semantic Cache 相关论文 | 各大模型 API 定价分析 |- DeepSeek-V4-Pro — 1.6T 总参/49B 激活 MoE,MIT 协议,开源性价比标杆 |- Memvid — 简化 RAG pipeline 降低存储与检索成本 |- Headroom — Token 压缩代理(已排除,见 cases/headroom-vs-deepseek-cache.md)

实战案例

参见 cases/ 目录下的具体排查记录。