孙雪健的数字花园

❯

❯

multimodal-agent-perception

multimodal-agent-perception

Properties1

tags	topic, multimodal, perception, vision

2026年6月13日1分钟阅读

多模态感知与环境交互

概述

Agent 的视觉感知能力——从浏览器截图到 UI 元素识别到操作的闭环。

研究方向

视觉-操作闭环 — 截图→LLM 分析→确定操作→CDP 执行→截图验证
多模态成本模型 — 图像 token 的成本 vs 收益
语音交互 — 语音输入/输出的集成
反检测策略 — WebDriver 特征隐藏、窗口随机化

相关页面：agent-harness-engineering agent-safety-boundary embodied-agents

关系图谱

多模态感知与环境交互
概述
研究方向

反向链接

index
_index
README
embodied-agents

Created with Quartz v5.0.0 © 2026

GitHub
关于我