Agent 工具学习与自主扩展

概述

从预定义的静态工具 → 工具自动发现与学习。让 Agent 自主扩展能力边界。

MMG2Skill — 将野生多模态指南（GUI 教程、游戏攻略等）转化为可执行技能，闭环框架不依赖人工反馈。编译指南为 SKILL.md → 条件化执行 → 轨迹根因反馈→修订技能。所有 18 个模型-域组合 +12.8 到 +25.3 pp（2606.01993）
SIRI — 自发现、自验证、自内化技能的三阶段框架：预热 → 自我技能挖掘（从自身成功轨迹总结并验证技能）→ 内化。媲美使用闭源模型蒸馏（2606.xxxxx）
SkillGrad — 将 skill 视为可优化参数，轨迹级损失 + 文本梯度 + 动量累积 + LLM patcher 迭代更新。SpreadsheetBench Verified 和 WikiTableQuestions 上平均超越最强训练 baseline 6.7 pp（2605.27760）
DataCOPE — 无监督验证器引导的技能发现框架，从探索轨迹导出验证信号，迭代协调 Agent、验证器和技能管理器。在 Deep Data Research 和 DABStep 上分别提升 9.71% 和 32.30%（2606.06416）
TAPO — 识别 GRPO 在工具增强型 Agent 中的信用错配问题——轨迹级优势统一广播导致有价值工具使用步骤被错误惩罚，超过一半失败轨迹表现出可修正的信用错配（2606.05784）
ToolChoiceConfusion — 工具菜单增大降低可靠性，提出因果最小工具过滤方法（2606.xxxxx）
ToolMaze — 首个专注于工具失败场景的动态重规划和异常恢复基准，隐式语义失败导致最严重的性能下降（2606.05806）