多模态感知与环境交互
概述
Agent 的视觉感知能力——从浏览器截图到 UI 元素识别到操作的闭环。
研究方向
- 视觉-操作闭环 — 截图→LLM 分析→确定操作→CDP 执行→截图验证
- 多模态成本模型 — 图像 token 的成本 vs 收益
- 语音交互 — 语音输入/输出的集成
- 反检测策略 — WebDriver 特征隐藏、窗口随机化
相关页面:agent-harness-engineering agent-safety-boundary embodied-agents
Agent 的视觉感知能力——从浏览器截图到 UI 元素识别到操作的闭环。
相关页面:agent-harness-engineering agent-safety-boundary embodied-agents