课题二十四:具身 Agent 与物理世界交互
优先级: 观察中
核心问题
Agent 如何与物理世界交互?不同于纯数字 Agent,具身 Agent 需要处理现实世界的复杂性:物理约束、实时反馈、安全边界。
关键方向
1. 数字孪生与模拟环境
- NVIDIA Omniverse、Apollo 等框架推动物理 AI 成熟
- 雲端即用即付模拟模式(OPEX)取代重资本投入
- IEEE P2874 空间 Web 标准已批准
2. 从感知到行动
- Screen-reading Large Action Models (LAMs)
- 物理世界中的安全约束:Agent 触发真实操作的风险
- 环境变化适应:界面改版、物体变形、API 废弃
3. 当前局限
- 在某个产线 99.2% 准确率的 Agent,换到另一产线可能降到 78%
- 真实环境动态变化,预训练数据集无法覆盖
个人关联
当前不涉及机器人/硬件开发,但 LAM 方向的进展可能影响自动化测试、UI 操作等数字场景。
关联课题
- multimodal-agent-perception — 多模态感知是具身的基础
- agent-safety-boundary — 物理世界的安全约束更严格
- agent-evaluation-framework — 具身 Agent 的评估方法不同