课题七:Agent 工具学习与自主扩展
优先级:P3 — 探索性较强,依赖基础能力成熟
当前情况
- GenericAgent 的 9 个原子工具均为静态预定义
- 社区方案(Toolformer、Gorilla)验证了工具学习的可行性,但未进入生产
- 工具学习的安全风险是主要阻碍
- 未进行任何工具学习的实验
可探索方向
- 从 OpenAPI 规范自动生成工具定义——最可行的切入点
- 工具调用的失败模式分析与自动修正
- 用户操作流程的学习:能否从用户重复操作中推断意图
- 工具发现的边界:哪些 API 可以自动发现,哪些必须人工注册
- 工具学习的冷启动问题:从零到可用的样本量
背景
当前 Agent 的工具列表是静态预定义的。如果 Agent 能通过阅读文档、尝试 API、观察用户操作来自主学习新工具,其能力边界将不再受限于开发者的预配置。
研究方向
1. 工具发现
- 从 API 文档 / OpenAPI 规范自动生成工具定义
- 网页爬取发现可用的公开 API
- 观察用户操作流程来推断潜在可工具化的步骤
2. 工具理解
- 从自然语言文档推断工具的输入/输出/前置条件
- 通过少量示例试用来验证理解是否正确
- 错误反馈循环:调用失败后自动调整调用方式
3. 工具记忆与复用
- 成功/失败的工具使用经验存入长期记忆
- 相似场景自动推荐之前用过的工具
- 工具组合模式的学习(“先查数据库,再用结果调 API”)
4. 安全边界
- 自动发现的工具不应自动信任
- 敏感工具需要人工授权
- 工具调用的频率控制和防滥用
关联课题
- agent-safety-boundary — 自主发现工具带来了新的攻击面
- agent-memory-system — 工具使用经验需要存入长期记忆
- agent-evaluation-framework — 需要评估工具使用的准确性
经典理论映射
Conway 定律(“系统架构复制组织的沟通结构”)在 Agent 自主工具学习场景下有了新含义:Agent 发现和集成的工具接口结构,会反向塑造 Agent 的能力边界和行为模式。也就是说,Agent 能”长成什么样”,不取决于它有多聪明,而取决于它接触的工具有多匹配它的任务——工具的形态决定了能力的上限。
参考资料
- Toolformer / Gorilla 等工具学习论文
- OpenAI Function Calling / Anthropic Tool Use API
- AppAgent / UFO 等 GUI Agent 的交互式学习
- ReAct 模式的工具循环设计
- browser-use/browser-use — Agent 的浏览器自动化框架(92K stars)
- MCP(Model Context Protocol)— 工具定义与发现的标准协议生态