多模态感知与环境交互

概述

Agent 的视觉感知能力——从浏览器截图到 UI 元素识别到操作的闭环。

研究方向

  1. 视觉-操作闭环 — 截图→LLM 分析→确定操作→CDP 执行→截图验证
  2. 多模态成本模型 — 图像 token 的成本 vs 收益
  3. 语音交互 — 语音输入/输出的集成
  4. 反检测策略 — WebDriver 特征隐藏、窗口随机化

相关页面:agent-harness-engineering agent-safety-boundary embodied-agents