孙雪健的数字花园

❯

❯

multimodal-agent-perception

❯

README

2026年6月15日4分钟阅读

课题九：多模态感知与环境交互多模态 Agent 感知

优先级：P3 — 探索性课题，依赖多模态模型能力进展

当前情况

GenericAgent 有 TMWebDriver 可做浏览器截图，但无结构化视觉分析
无音频输入处理能力
多模态模型（GPT-4V、Claude Vision）已可商用，但成本高
未进行任何多模态能力的实验

可探索方向

截图 → UI 元素识别 → 操作的闭环延迟
视觉信息在上下文中的表示方式：截图 vs 结构化描述
多模态调用的成本模型——什么场景值得用
文档（PDF/Excel）的解析 vs 直接看图，哪种更可靠
语音交互对 Agent 使用体验的提升是否值得额外复杂度

背景

纯文本 Agent 只能看到世界的一部分。整合视觉、音频、文件等多模态输入，Agent 才能理解截图、阅读 PDF、响应语音指令、分析图表。

研究方向

1. 视觉感知

UI 理解 — 截图分析：识别按钮、输入框、列表等 UI 元素的位置和语义
图表推理 — 从图表/曲线图中提取数据趋势
图像理解 — 场景识别、OCR、物体检测

2. 文档理解

PDF 解析 — 布局分析、表格提取、混合格式内容
思维导图/流程图 — 从非结构化图形中提取逻辑结构
手写识别 — 手写笔记的识别与结构化

3. 音频交互

语音指令 — 将语音实时转文字作为 Agent 输入
声纹识别 — 区分不同说话人
语气分析 — 从语气推断情绪和意图

4. 多模态融合

不同模态的信息如何对齐和融合
模态冲突时的置信度判断
模态间的相互验证（视觉 + 文本对照）

5. 延迟与成本优化

多模态调用的延迟叠加
缓存策略：相同/相似视觉输入复用分析结果
按需加载：先文本，必要时才请求视觉分析

关联课题

agent-tool-learning — 工具学习可能涉及 GUI 操作（截图分析）
agent-memory-system — 多模态信息在记忆中的存储与检索
agent-evaluation-framework — 多模态场景的评估维度更多

参考资料

GPT-4V / Claude Vision 等多模态模型能力边界
AppAgent / CogAgent 等 GUI Agent 的视觉方法
Set-of-Mark / SeeClick 等 UI 理解方案
多模态 RAG 的最新研究
browser-use/browser-use — Agent 浏览器自动化与截图分析（92K stars）
Gemma 4（Google）— 31B 原生多语言多模态，2026 年 4 月发布

关系图谱

课题九：多模态感知与环境交互多模态 Agent 感知
当前情况
可探索方向
背景
研究方向
1. 视觉感知
2. 文档理解
3. 音频交互
4. 多模态融合
5. 延迟与成本优化
关联课题
参考资料

Created with Quartz v5.0.0 © 2026

GitHub
关于我