课题七：Agent 工具学习与自主扩展

优先级：P3 — 探索性较强，依赖基础能力成熟

当前情况

GenericAgent 的 9 个原子工具均为静态预定义
社区方案（Toolformer、Gorilla）验证了工具学习的可行性，但未进入生产
工具学习的安全风险是主要阻碍
未进行任何工具学习的实验

可探索方向

从 OpenAPI 规范自动生成工具定义——最可行的切入点
工具调用的失败模式分析与自动修正
用户操作流程的学习：能否从用户重复操作中推断意图
工具发现的边界：哪些 API 可以自动发现，哪些必须人工注册
工具学习的冷启动问题：从零到可用的样本量

背景

当前 Agent 的工具列表是静态预定义的。如果 Agent 能通过阅读文档、尝试 API、观察用户操作来自主学习新工具，其能力边界将不再受限于开发者的预配置。

研究方向

1. 工具发现

从 API 文档 / OpenAPI 规范自动生成工具定义
网页爬取发现可用的公开 API
观察用户操作流程来推断潜在可工具化的步骤

2. 工具理解

从自然语言文档推断工具的输入/输出/前置条件
通过少量示例试用来验证理解是否正确
错误反馈循环：调用失败后自动调整调用方式

3. 工具记忆与复用

成功/失败的工具使用经验存入长期记忆
相似场景自动推荐之前用过的工具
工具组合模式的学习（“先查数据库，再用结果调 API”）

4. 安全边界

自动发现的工具不应自动信任
敏感工具需要人工授权
工具调用的频率控制和防滥用

关联课题

agent-safety-boundary — 自主发现工具带来了新的攻击面
agent-memory-system — 工具使用经验需要存入长期记忆
agent-evaluation-framework — 需要评估工具使用的准确性

经典理论映射

Conway 定律（“系统架构复制组织的沟通结构”）在 Agent 自主工具学习场景下有了新含义：Agent 发现和集成的工具接口结构，会反向塑造 Agent 的能力边界和行为模式。也就是说，Agent 能”长成什么样”，不取决于它有多聪明，而取决于它接触的工具有多匹配它的任务——工具的形态决定了能力的上限。

参考资料

Toolformer / Gorilla 等工具学习论文
OpenAI Function Calling / Anthropic Tool Use API
AppAgent / UFO 等 GUI Agent 的交互式学习
ReAct 模式的工具循环设计
browser-use/browser-use — Agent 的浏览器自动化框架（92K stars）
MCP（Model Context Protocol）— 工具定义与发现的标准协议生态

孙雪健的数字花园

探索

README