Agent 工具学习与自主扩展
概述
从预定义的静态工具 → 工具自动发现与学习。让 Agent 自主扩展能力边界。
探索方向
- 从 OpenAPI 规范生成工具 — 自动解析 API 文档
- 工具调用失败模式分析 — 学习什么情况下哪个工具更好
- 冷启动问题 — 新工具没有历史数据时如何学习
2026-06 论文速览
- MMG2Skill — 将野生多模态指南(GUI 教程、游戏攻略等)转化为可执行技能,闭环框架不依赖人工反馈。编译指南为 SKILL.md → 条件化执行 → 轨迹根因反馈→修订技能。所有 18 个模型-域组合 +12.8 到 +25.3 pp(2606.01993)
- SIRI — 自发现、自验证、自内化技能的三阶段框架:预热 → 自我技能挖掘(从自身成功轨迹总结并验证技能)→ 内化。媲美使用闭源模型蒸馏(2606.xxxxx)
- SkillGrad — 将 skill 视为可优化参数,轨迹级损失 + 文本梯度 + 动量累积 + LLM patcher 迭代更新。SpreadsheetBench Verified 和 WikiTableQuestions 上平均超越最强训练 baseline 6.7 pp(2605.27760)
- DataCOPE — 无监督验证器引导的技能发现框架,从探索轨迹导出验证信号,迭代协调 Agent、验证器和技能管理器。在 Deep Data Research 和 DABStep 上分别提升 9.71% 和 32.30%(2606.06416)
- TAPO — 识别 GRPO 在工具增强型 Agent 中的信用错配问题——轨迹级优势统一广播导致有价值工具使用步骤被错误惩罚,超过一半失败轨迹表现出可修正的信用错配(2606.05784)
- ToolChoiceConfusion — 工具菜单增大降低可靠性,提出因果最小工具过滤方法(2606.xxxxx)
- ToolMaze — 首个专注于工具失败场景的动态重规划和异常恢复基准,隐式语义失败导致最严重的性能下降(2606.05806)
相关页面:agent-harness-engineering skill-lifecycle-governance agent-self-evolution