自我验证与自动评判

概述

从 HITL(人在环)到 Auto-Judging——让 Agent 具备自我检查能力。

研究方向

  1. 内部反馈回路 — Agent 检查自身输出的正确性
  2. 一致性验证 — 同一问题的多次回答是否一致
  3. 外部工具验证 — 用确定性工具验证 LLM 输出
  4. 故障分类 — 瞬态 vs 永久、局部 vs 全局

相关页面:agent-evaluation-framework agent-safety-boundary agent-harness-engineering