自我验证与自动评判
概述
从 HITL(人在环)到 Auto-Judging——让 Agent 具备自我检查能力。
研究方向
- 内部反馈回路 — Agent 检查自身输出的正确性
- 一致性验证 — 同一问题的多次回答是否一致
- 外部工具验证 — 用确定性工具验证 LLM 输出
- 故障分类 — 瞬态 vs 永久、局部 vs 全局
相关页面:agent-evaluation-framework agent-safety-boundary agent-harness-engineering
从 HITL(人在环)到 Auto-Judging——让 Agent 具备自我检查能力。
相关页面:agent-evaluation-framework agent-safety-boundary agent-harness-engineering