课题九:多模态感知与环境交互多模态 Agent 感知
优先级:P3 — 探索性课题,依赖多模态模型能力进展
当前情况
- GenericAgent 有 TMWebDriver 可做浏览器截图,但无结构化视觉分析
- 无音频输入处理能力
- 多模态模型(GPT-4V、Claude Vision)已可商用,但成本高
- 未进行任何多模态能力的实验
可探索方向
- 截图 → UI 元素识别 → 操作的闭环延迟
- 视觉信息在上下文中的表示方式:截图 vs 结构化描述
- 多模态调用的成本模型——什么场景值得用
- 文档(PDF/Excel)的解析 vs 直接看图,哪种更可靠
- 语音交互对 Agent 使用体验的提升是否值得额外复杂度
背景
纯文本 Agent 只能看到世界的一部分。整合视觉、音频、文件等多模态输入,Agent 才能理解截图、阅读 PDF、响应语音指令、分析图表。
研究方向
1. 视觉感知
- UI 理解 — 截图分析:识别按钮、输入框、列表等 UI 元素的位置和语义
- 图表推理 — 从图表/曲线图中提取数据趋势
- 图像理解 — 场景识别、OCR、物体检测
2. 文档理解
- PDF 解析 — 布局分析、表格提取、混合格式内容
- 思维导图/流程图 — 从非结构化图形中提取逻辑结构
- 手写识别 — 手写笔记的识别与结构化
3. 音频交互
- 语音指令 — 将语音实时转文字作为 Agent 输入
- 声纹识别 — 区分不同说话人
- 语气分析 — 从语气推断情绪和意图
4. 多模态融合
- 不同模态的信息如何对齐和融合
- 模态冲突时的置信度判断
- 模态间的相互验证(视觉 + 文本对照)
5. 延迟与成本优化
- 多模态调用的延迟叠加
- 缓存策略:相同/相似视觉输入复用分析结果
- 按需加载:先文本,必要时才请求视觉分析
关联课题
- agent-tool-learning — 工具学习可能涉及 GUI 操作(截图分析)
- agent-memory-system — 多模态信息在记忆中的存储与检索
- agent-evaluation-framework — 多模态场景的评估维度更多
参考资料
- GPT-4V / Claude Vision 等多模态模型能力边界
- AppAgent / CogAgent 等 GUI Agent 的视觉方法
- Set-of-Mark / SeeClick 等 UI 理解方案
- 多模态 RAG 的最新研究
- browser-use/browser-use — Agent 浏览器自动化与截图分析(92K stars)
- Gemma 4(Google)— 31B 原生多语言多模态,2026 年 4 月发布