课题十一:Agent 安全边界与行为对齐

优先级:P1 — Agent 可用的前提,必须从一开始就考虑

当前情况

  • GenericAgent 无权限控制模型,所有工具调用无访问限制
  • 无输入安全检查,外部数据(网页、文件)直接进入 prompt
  • 无操作审计日志,无法追溯 Agent 行为
  • 社区安全研究集中在论文阶段,成熟的生产实践有限

可探索方向

  • 权限模型的粒度:操作级 vs 资源级,哪一层更实用
  • 指令注入的自动化检测——能否用另一个 LLM 实时检测
  • 临时权限提升的 UX 设计——不打断 Agent 工作流的前提下确认
  • 沙箱逃逸的常见路径与防护
  • 隐私数据在记忆中的存储与清除策略

背景

随着 Agent 能力增强(执行代码、操作浏览器、访问文件系统),安全风险线性增长。需要在 Agent 设计之初就建立安全边界,而不是事后打补丁。

研究方向

1. 指令注入防护

  • 从外部输入(网页内容、用户消息、文件)中检测并隔离潜在注入
  • 上下文隔离:区分”用户指令”和”外部数据”
  • 输入 sanitization 策略和绕过案例分析

2. 权限控制模型

  • 细粒度权限:文件系统、网络、进程、敏感 API 分级授权
  • 临时权限提升:危险操作需二次确认(类似 Android 运行时权限)
  • 权限继承与传播:子 Agent 不能超越父 Agent 的权限边界

3. 行为审核与回滚

  • 操作日志:记录 Agent 所有外部操作的因果链
  • 沙箱回滚:对文件系统/数据库操作支持事务性回滚
  • 异常行为检测:偏离历史模式的操作触发告警

4. 沙箱逃逸防护

  • Agent 运行环境的隔离层次
  • 限制对宿主机资源的访问
  • 网络策略控制(允许访问哪些端点)

5. 隐私保护

  • 敏感信息脱敏(API Key、密码、个人信息)
  • 数据最小化原则——Agent 只访问完成任务所需的最少数据
  • 用户可查看和删除 Agent 存储的个人信息

关联课题

经典理论映射

Broken Window Theory(Hunt & Thomas, 1999)在安全语境下尤为尖锐:Agent 行为中留一个”小毛病”不修——一次不合理的工具调用、一条未经审查的外部数据——整个信任体系会加速崩塌。用户一旦发现 Agent 做了一件不靠谱的事,对后续所有输出的信任都会打折。安全隐患不是累积的,是指数放大的。

信任理论(Luhmann, 1979)将信任定义为”降低社会复杂性的机制”——人信任 Agent 不是因为能验证 Agent 的每一步决策,而是因为没能力验证。这是人机信任的根本矛盾:信任来自不可验证,而安全需要可验证。两者之间的张力定义了安全边界设计的理论极限——过度追求可验证性会破坏信任(用户体验),过度依赖信任会突破安全边界。

参考资料

  • OWASP LLM Top 10
  • Anthropic 的 responsible scaling policy
  • 现有 Agent 框架的安全实践对比