课题十三：推理成本优化与模型路由策略

成本优化与模型路由

优先级：P2 — Agent 生产落地的经济可行性前提

当前情况

GenericAgent 的 llmcore.py 已支持多模型（Claude、Gemini、Kimi、MiniMax），但路由策略是硬编码
✅ 2026-06-07：Hermes Agent 已验证 DeepSeek V4 Flash（主会话）+ MIMO v2.5 Pro（delegation）双模型路由，两者走不同 provider 和 API 端点
✅ 2026-06-07：Headroom 中间代理层已移除，主会话直连 DeepSeek API，去掉了双倍压缩和中间缓存
Hermes 内置 hermes insights 命令支持按天/模型/平台统计 token 消耗和成本，可作为成本追踪基础
⏳ 消耗对比数据待采集：去 Headroom + MIMO 路由后的日花费与之前对比，预计 6/8 出数据
无语义缓存，相同或相似请求重复调用 API
社区已有方案（LiteLLM、OpenRouter）但侧重模型网关而非 Agent 场景的智能路由

研究方向

1. 模型路由策略

任务难度分级：简单分类任务用小模型，复杂推理用大模型
兜底机制：小模型置信度不足时升级到大模型
领域路由：代码题走代码模型，对话走通用模型
预算感知路由：月度 token 配额内动态优化模型选择

2. 语义缓存

相似输入检测（向量相似度 + 语义哈希）
缓存命中时直接返回结果（跳过 LLM 调用）
缓存失效策略：时效、版本更新、用户显式清除
部分命中：模板化请求的变量替换缓存

3. Token 优化

Prompt 压缩：去除冗余上下文、精简历史
输出长度控制：引导模型输出简洁回答
共享上下文窗口：同一 session 内复用 system prompt 的 KV cache
批量处理：非实时操作合并为 batch 调用

4. 成本追踪与告警

每次调用的模型、token、耗时、费用记录
按 session/用户/时间段聚合统计
预算阈值告警与自动降级
成本/质量报告：辅助模型选型决策

5. 故障切换与热备

模型降级路由：主模型（如 Claude）故障时自动切换到备选模型（如 Gemini/DeepSeek），任务不中断
预算触发降级：月度配额耗尽时自动切换到低成本模型，维持核心功能可用
模型切换策略与主模型/工具模型分工（课题五）共享同一路由决策层，切换策略和降级条件由课题二十二（自我验证与恢复）定义
热备模型状态预热：备选模型保持最小连接池，切换延迟控制在 <1s

6. 优化工具的组合效应分析

引入多层优化工具时，它们之间可能互相抵消，需要整体审视而非层层叠加。

实战案例：Headroom 代理 vs DeepSeek Prefix Caching 冲突

问题：在 DeepSeek 前加 Headroom 压缩代理，预期降成本，实际效果相反
根因：Headroom 的压缩改变了消息结构，打断了 DeepSeek 的 prefix caching（缓存命中价仅 $0.0028/M，全价的2%）
结果：40.6% 的压缩节省远不及缓存折扣损失，最终拆掉 Headroom 直连
详情：参见 cases/headroom-vs-deepseek-cache.md

验证原则：

每次只引入一个优化层
安装前记录基准线（token 数 + 费用）
安装后对比实际效果
检查与现有优化层的冲突
API 定价以官方文档为准（A 级信息源），第三方博客标注”需验证”

实践方案：Compound AI 三层插件（2026-06-08）

课题十三的缓存+路由方向已进入设计层，以 Hermes Compound AI 插件为载体。

该方案将课题十三的两个核心研究方向——语义缓存和模型路由策略——整合为一个通用 Hermes 插件，三层架构如下：

① 语义缓存层

课题十三方向	插件实现
相似输入检测	embedding（本地 bge-m3）+ 余弦相似度，阈值可配（如 0.92）
缓存命中直接返回	跳过 LLM 调用，延迟从 ~5s 降到 ~10ms
缓存失效策略	TTL 配置 + 版本变更时主动失效
部分命中	模板化请求的变量替换缓存（预留）

② 模型路由层

将课题十三的”任务难度分级”和”领域路由”工程化为 Hermes pre_llm_call hook：

简单分类/翻译 → 本地模型（ollama，零成本）
中等对话/生成 → 快速 API 模型（如 DeepSeek Chat）
复杂推理/多步任务 → 慢速强推理模型（如 Claude Sonnet）
兜底机制：小模型置信度不足时自动升级到下一级

与课题十三的关系

课题十三研究方向           →  插件实现                     →  落地效果
语义缓存（向量+哈希）      →  ① cache layer embed 检索      →  重复请求零延迟零成本
模型路由策略（分级+领域）   →  ② router layer 复杂度判断    →  简单问题不走贵模型
预算感知路由               →  路由层可加剩余配额感知         →  配额不足时自动降级
优化工具组合效应分析       →  三层统一框架，避免冲突        →  单层可独立开关测试

详见 Compound AI 插件设计（待创建）。

可探索方向

模型选择的效果-成本 Pareto 前沿
缓存替换策略对 Agent 任务命中率的影响
不同任务类型的最佳模型匹配模式
混合部署（本地小模型 + 云端大模型）的成本模型
跨 session 的长期缓存复用可行性
DeepSeek 推理缓存的命中优化（参考 deepseek-reasonix 项目）——不同模型的 KV cache 特性差异对缓存策略的影响

关联课题

agent-task-planning — 规划结果缓存可以复用
agent-memory-system — 记忆系统可作为缓存的后端
agent-evaluation-framework — 成本/质量 trade-off 的评估
ai-society-impact — 成本降低加速技术普及，放大社会影响
main-tool-model — Router 层设计参考了课题五的 Thinker-Router-Doer 架构
thinking-fast-slow-llm — 双系统理论是本方案缓存+路由的理论基础
Compound AI — 本课题的缓存+路由已纳入 Compound AI 插件实践方向

参考资料

LiteLLM 的模型路由实现
OpenRouter 的多模型网关设计
GPTCache / GPTCache 项目
Semantic Cache 相关论文 | 各大模型 API 定价分析 |- DeepSeek-V4-Pro — 1.6T 总参/49B 激活 MoE，MIT 协议，开源性价比标杆 |- Memvid — 简化 RAG pipeline 降低存储与检索成本 |- Headroom — Token 压缩代理（已排除，见 cases/headroom-vs-deepseek-cache.md）

实战案例

参见 cases/ 目录下的具体排查记录。

孙雪健的数字花园

探索

README