课题十四：人机协作与渐进式自主

优先级：P1 — Agent 的最终形态不是替代人，而是与人协作

当前情况

GenericAgent 现有交互模式是”用户发指令 → Agent 执行”，无分级自主概念
社区方案侧重两端：要么完全自主（AutoGPT），要么完全被动（Chat 模式），中间地带研究不足
业界开始关注 Human-in-the-Loop 设计，但缺乏成熟的自主度框架

研究方向

1. 自主度分级模型

L0 — 完全被动：执行用户每一步指令，无自主决策
L1 — 建议模式：Agent 建议下一步操作，用户确认后执行
L2 — 半自主：常规操作自主执行，高风险/不可逆操作请求确认
L3 — 条件自主：在预设边界内完全自主，越界时升级给人
L4 — 完全自主：仅在关键里程碑同步给人

不同任务类型默认的自主度级别
自主度的动态调整：基于历史成功率自动升降级
用户可覆盖：任何时候用户可以降低或提升自主度

2. 干预接口设计

用户打断：Agent 执行中用户可以随时插入新指令
纠错反馈：用户指出错误时 Agent 理解和修正
中间确认：复杂决策的 checkpoint 确认机制
执行回退：用户要求回退到之前的状态

3. 信任建立

Agent 对其不确定的操作主动标”不确定”
引用信息来源：Agent 的结论附上依据
一致性维护：同一用户在同一问题上行为一致
渐进授权：用户信任度随 Agent 的可靠表现增长

4. 降级策略

API 故障或模型不可用时优雅降级
复杂任务超出能力时告知而非硬做
异常行为检测触发强制人工接管
降级路径可配置：每类操作可指定降级目标

可探索方向

自主度对用户满意度和任务完成率的影响
用户信任度量化模型
不同用户画像的自主度偏好
纠错反馈中的”理解-修正-验证”循环效率
多用户场景下自主度权限管理
长期协作中的信任演化规律

关联课题

agent-safety-boundary — 自主度越高，安全约束越关键
agent-explainability-debugging — 可解释性是信任的前提
agent-evaluation-framework — 人机协作效果需要用户研究
ai-society-impact — AI 对就业结构的影响直接关联人机角色分工

参考资料

Tesla FSD 的自主度分级及其对 Agent 的启发
Human-in-the-Loop ML 的设计模式
Microsoft: Guidelines for Human-AI Interaction
航空航天/自动驾驶领域的自主度分级标准
对话系统的用户信任研究

5. 个人开发者多 Agent 协作模式（实践记录）

来源： 2026-05-30 实际协作复盘 状态： 观察中，持续积累

基于 Claude Code + Hermes Agent + 思言三个 agent 的日常协作，探索个人开发者场景下多 agent 的角色划分和协作边界。

当前分工格局

用户 ── 最终决策层
  ├── 克劳德（Claude Code） ── 工匠
  │    负责：调研→设计→编码→测试
  │    约束：只执行不决策，产出需过审
  │
  ├── 大锤（Hermes） ── 大管家
  │    负责：流程协调→质量把关→文档沉淀→运维执行
  │    约束：把关不写代码，规划不替决策
  │
  └── 思言（DeepTutor） ── 教师
       负责：知识传授→提问引导→学习路径规划
       约束：只教学不写代码，引导不替答

协作原则（已确认）

执行不同步 — 写代码和审阅不并行
有分歧各自列理由 — 让用户选，不互相驳斥
有争议先推进 — 执行方按判断先做，审阅方 later challenge
不同时接同一任务 — 谁先看到谁先做
修改后需再审 — 审阅→修改→再审→用户确认→完成

三个场景的 agent 角色映射

场景	agent类型	自主度	约束
生活	管家型	中（常规自主，复杂决策等确认）	涉及钱/隐私/人身安全的操作必须人确认
工作	协作者+执行者	执行高（编码），决策低（方案需审）	产出要过审才能上生产，战略由人拍板
学习	导师型	低（引导不替答）	agent 不能代思，不能替做题

待观察问题

审阅环节是否需要独立的专门 agent，还是大锤兼任足够？
角色分工是否需要随项目阶段动态调整？
知识沉淀目前靠偶然触发，是否需要制度化节奏？
这套模式扩展到更多 agent（如超过 5 个）时是否还成立？

经典理论映射

信任理论（Luhmann, 1979）将信任定义为”降低社会复杂性的机制”——人之所以信任 Agent，不是因为能验证它的每一步，而是因为没能力也不愿意验证每一步。人机协作中，信任替代了持续验证，使得协作在不完全信息下成为可能。这定义了协作系统的设计边界：

过度透明（让人类检查每一步）会破坏信任建立——人类会感到负担而非安心
信任不是安全（课题十一），信任是”我愿意接受你出错的可能性”
Agent 自主度越高，人类需要做的验证越少，但信任门槛越高

共同体实践（Wenger, 1998）认为学习是在实践中参与共同体。这在 Agent 辅助学习场景下重新定义了三方关系：

人类学习 ≠ Agent 给答案，而是 Agent 作为”更有经验的同行者”参与学习实践
Agent 太强（直接代做）或太弱（答不了）都会破坏学习共同体——需要恰到好处的”最近发展区”

心理学理论映射

最近发展区（ZPD）（Vygotsky, 1978）—— 学习最有效地发生在”学习者能独立完成”和”在更有能力者帮助下能完成”之间的区域。这直接定义了人机协作的最佳难度区间：Agent 太强（直接给答案）让人类失去学习机会，Agent 太弱（无法提供有效帮助）让人类独自挣扎。ZPD 给出了设计目标——Agent 应该始终处在人类”踮踮脚能够到”的位置，既不给答案，也不放任不管。这也是渐进式自主（课题标题）的理论基础：随着人类能力提升，Agent 的参与程度应自动退回，保持 ZPD 的动态平衡。

心智理论（ToM）（Premack & Woodruff, 1978）—— 区分”我知道什么”和”你知道什么”的能力是有效协作的前提。Agent 在与人类协作时，需要同时维护三个模型：自己对任务的理解、对人类当前理解状态的推断、以及”自己以为人类理解了什么”的元表征。当前 Agent 完全无法做到这一点——它把所有上下文一视同仁，不分”我知道但用户不知道”和”我们都已经知道”。缺乏 ToM 是人机协作中大量沟通成本的根源：Agent 反复解释用户已经知道的内容，或默认用户知道 Agent 知道的专有信息。

孙雪健的数字花园

探索

README