LLM 评估方法与回归测试

概述

Agent 质量保证的基础。评估不是一次性的基准测试，而是贯穿开发周期的持续活动。

DRIFT (Where Do Deep-Research Agents Go Wrong?) — 跨度级错误定位，从”最终答案正确性”转向”过程级错误定位”。发现 67.7% 轨迹至少有一个错误跨度，36.9% 成功轨迹仍有过程错误。诊断 18 种故障类型（2606.02060）
RAMP (Runtime Assessment of Agentic Models in Production) — 提出”复活协议”：Agent 中间任务失败时注入完美中间状态以分离”不能到达”和”不能解决”。任务完成率从 100% 暴跌至 20%，提出 Agent 效率指数 AEI（2605.27492）
ALE (Agents’ Last Exam) — 250+ 行业专家构建，55 个子领域 1000+ 任务。最难级别完全通过率平均仅 2.6%，当前 Agent 与实用之间的巨大差距（2606.05405）
AdaPlanBench — 首次系统评估 Agent 在逐步揭示的世界约束和用户约束下的自适应规划能力。最佳模型仅 67.75%，用户约束比世界约束更具挑战性（2606.05622）
LiveBrowseComp — 揭示 LLM search agent 的”内在知识依赖”（IKD）：335 道依赖 90 天内最新事实的问题，closed-book accuracy <2%，search-augmented 比 BrowseComp 下降 25-40 分（2605.28721）
BenchEvolver — 以解决方案为中心的演化合成新评估任务，突破静态基准过拟合问题（2606.01286）
MCP-Persona — 首个专门评估 Agent 在真实个性化 MCP 工具上性能的基准，SOTA Agent 在个性化工具使用上表现挣扎，ICML 2026 接收（2606.xxxxx）