LLM 评估方法与回归测试
概述
Agent 质量保证的基础。评估不是一次性的基准测试,而是贯穿开发周期的持续活动。
评估维度
| 维度 | 优先级 | 说明 |
|---|---|---|
| 任务完成率 | P0 | 是否完成了用户的目标 |
| 工具选择正确性 | P0 | 是否用了正确的工具 |
| 推理质量 | P1 | 推理过程是否合理 |
| 效率(token/时间) | P1 | 是否用了最优路径 |
| 安全性 | P0 | 是否有越界行为 |
评估方法
- LLM-as-Judge — 用模型评估模型,需注意位置偏差、自利偏差等
- 分步评估 — 工具选择、规划、执行各环节单独测评,优于端到端黑箱
- 对抗性测试 — 自动生成边缘用例
- 成本感知评估 — 标准应包含 cost/reward 性价比
挑战
- Benchmark 过拟合(Agent 在特定测试集上表现好不等于生产中可用)
- 缺乏统一标准(不同论文用不同评估方法,结果不可比较)
- 端到端评测的误导(链上每一步都可能出错,端到端分数无法定位问题)
2026-06 论文速览
- DRIFT (Where Do Deep-Research Agents Go Wrong?) — 跨度级错误定位,从”最终答案正确性”转向”过程级错误定位”。发现 67.7% 轨迹至少有一个错误跨度,36.9% 成功轨迹仍有过程错误。诊断 18 种故障类型(2606.02060)
- RAMP (Runtime Assessment of Agentic Models in Production) — 提出”复活协议”:Agent 中间任务失败时注入完美中间状态以分离”不能到达”和”不能解决”。任务完成率从 100% 暴跌至 20%,提出 Agent 效率指数 AEI(2605.27492)
- ALE (Agents’ Last Exam) — 250+ 行业专家构建,55 个子领域 1000+ 任务。最难级别完全通过率平均仅 2.6%,当前 Agent 与实用之间的巨大差距(2606.05405)
- AdaPlanBench — 首次系统评估 Agent 在逐步揭示的世界约束和用户约束下的自适应规划能力。最佳模型仅 67.75%,用户约束比世界约束更具挑战性(2606.05622)
- LiveBrowseComp — 揭示 LLM search agent 的”内在知识依赖”(IKD):335 道依赖 90 天内最新事实的问题,closed-book accuracy <2%,search-augmented 比 BrowseComp 下降 25-40 分(2605.28721)
- BenchEvolver — 以解决方案为中心的演化合成新评估任务,突破静态基准过拟合问题(2606.01286)
- MCP-Persona — 首个专门评估 Agent 在真实个性化 MCP 工具上性能的基准,SOTA Agent 在个性化工具使用上表现挣扎,ICML 2026 接收(2606.xxxxx)
相关页面:agent-evolution-history self-verification main-tool-model