课题十四:人机协作与渐进式自主
优先级:P1 — Agent 的最终形态不是替代人,而是与人协作
当前情况
- GenericAgent 现有交互模式是”用户发指令 → Agent 执行”,无分级自主概念
- 社区方案侧重两端:要么完全自主(AutoGPT),要么完全被动(Chat 模式),中间地带研究不足
- 业界开始关注 Human-in-the-Loop 设计,但缺乏成熟的自主度框架
研究方向
1. 自主度分级模型
L0 — 完全被动:执行用户每一步指令,无自主决策
L1 — 建议模式:Agent 建议下一步操作,用户确认后执行
L2 — 半自主:常规操作自主执行,高风险/不可逆操作请求确认
L3 — 条件自主:在预设边界内完全自主,越界时升级给人
L4 — 完全自主:仅在关键里程碑同步给人
- 不同任务类型默认的自主度级别
- 自主度的动态调整:基于历史成功率自动升降级
- 用户可覆盖:任何时候用户可以降低或提升自主度
2. 干预接口设计
- 用户打断:Agent 执行中用户可以随时插入新指令
- 纠错反馈:用户指出错误时 Agent 理解和修正
- 中间确认:复杂决策的 checkpoint 确认机制
- 执行回退:用户要求回退到之前的状态
3. 信任建立
- Agent 对其不确定的操作主动标”不确定”
- 引用信息来源:Agent 的结论附上依据
- 一致性维护:同一用户在同一问题上行为一致
- 渐进授权:用户信任度随 Agent 的可靠表现增长
4. 降级策略
- API 故障或模型不可用时优雅降级
- 复杂任务超出能力时告知而非硬做
- 异常行为检测触发强制人工接管
- 降级路径可配置:每类操作可指定降级目标
可探索方向
- 自主度对用户满意度和任务完成率的影响
- 用户信任度量化模型
- 不同用户画像的自主度偏好
- 纠错反馈中的”理解-修正-验证”循环效率
- 多用户场景下自主度权限管理
- 长期协作中的信任演化规律
关联课题
- agent-safety-boundary — 自主度越高,安全约束越关键
- agent-explainability-debugging — 可解释性是信任的前提
- agent-evaluation-framework — 人机协作效果需要用户研究
- ai-society-impact — AI 对就业结构的影响直接关联人机角色分工
参考资料
- Tesla FSD 的自主度分级及其对 Agent 的启发
- Human-in-the-Loop ML 的设计模式
- Microsoft: Guidelines for Human-AI Interaction
- 航空航天/自动驾驶领域的自主度分级标准
- 对话系统的用户信任研究
5. 个人开发者多 Agent 协作模式(实践记录)
来源: 2026-05-30 实际协作复盘 状态: 观察中,持续积累
基于 Claude Code + Hermes Agent + 思言 三个 agent 的日常协作,探索个人开发者场景下多 agent 的角色划分和协作边界。
当前分工格局
用户 ── 最终决策层
├── 克劳德(Claude Code) ── 工匠
│ 负责:调研→设计→编码→测试
│ 约束:只执行不决策,产出需过审
│
├── 大锤(Hermes) ── 大管家
│ 负责:流程协调→质量把关→文档沉淀→运维执行
│ 约束:把关不写代码,规划不替决策
│
└── 思言(DeepTutor) ── 教师
负责:知识传授→提问引导→学习路径规划
约束:只教学不写代码,引导不替答
协作原则(已确认)
- 执行不同步 — 写代码和审阅不并行
- 有分歧各自列理由 — 让用户选,不互相驳斥
- 有争议先推进 — 执行方按判断先做,审阅方 later challenge
- 不同时接同一任务 — 谁先看到谁先做
- 修改后需再审 — 审阅→修改→再审→用户确认→完成
三个场景的 agent 角色映射
| 场景 | agent类型 | 自主度 | 约束 |
|---|---|---|---|
| 生活 | 管家型 | 中(常规自主,复杂决策等确认) | 涉及钱/隐私/人身安全的操作必须人确认 |
| 工作 | 协作者+执行者 | 执行高(编码),决策低(方案需审) | 产出要过审才能上生产,战略由人拍板 |
| 学习 | 导师型 | 低(引导不替答) | agent 不能代思,不能替做题 |
待观察问题
- 审阅环节是否需要独立的专门 agent,还是大锤兼任足够?
- 角色分工是否需要随项目阶段动态调整?
- 知识沉淀目前靠偶然触发,是否需要制度化节奏?
- 这套模式扩展到更多 agent(如超过 5 个)时是否还成立?
经典理论映射
信任理论(Luhmann, 1979)将信任定义为”降低社会复杂性的机制”——人之所以信任 Agent,不是因为能验证它的每一步,而是因为没能力也不愿意验证每一步。人机协作中,信任替代了持续验证,使得协作在不完全信息下成为可能。这定义了协作系统的设计边界:
- 过度透明(让人类检查每一步)会破坏信任建立——人类会感到负担而非安心
- 信任不是安全(课题十一),信任是”我愿意接受你出错的可能性”
- Agent 自主度越高,人类需要做的验证越少,但信任门槛越高
共同体实践(Wenger, 1998)认为学习是在实践中参与共同体。这在 Agent 辅助学习场景下重新定义了三方关系:
- 人类学习 ≠ Agent 给答案,而是 Agent 作为”更有经验的同行者”参与学习实践
- Agent 太强(直接代做)或太弱(答不了)都会破坏学习共同体——需要恰到好处的”最近发展区”
心理学理论映射
最近发展区(ZPD)(Vygotsky, 1978)—— 学习最有效地发生在”学习者能独立完成”和”在更有能力者帮助下能完成”之间的区域。这直接定义了人机协作的最佳难度区间:Agent 太强(直接给答案)让人类失去学习机会,Agent 太弱(无法提供有效帮助)让人类独自挣扎。ZPD 给出了设计目标——Agent 应该始终处在人类”踮踮脚能够到”的位置,既不给答案,也不放任不管。这也是渐进式自主(课题标题)的理论基础:随着人类能力提升,Agent 的参与程度应自动退回,保持 ZPD 的动态平衡。
心智理论(ToM)(Premack & Woodruff, 1978)—— 区分”我知道什么”和”你知道什么”的能力是有效协作的前提。Agent 在与人类协作时,需要同时维护三个模型:自己对任务的理解、对人类当前理解状态的推断、以及”自己以为人类理解了什么”的元表征。当前 Agent 完全无法做到这一点——它把所有上下文一视同仁,不分”我知道但用户不知道”和”我们都已经知道”。缺乏 ToM 是人机协作中大量沟通成本的根源:Agent 反复解释用户已经知道的内容,或默认用户知道 Agent 知道的专有信息。