课题十一:Agent 安全边界与行为对齐
优先级:P1 — Agent 可用的前提,必须从一开始就考虑
当前情况
- GenericAgent 无权限控制模型,所有工具调用无访问限制
- 无输入安全检查,外部数据(网页、文件)直接进入 prompt
- 无操作审计日志,无法追溯 Agent 行为
- 社区安全研究集中在论文阶段,成熟的生产实践有限
可探索方向
- 权限模型的粒度:操作级 vs 资源级,哪一层更实用
- 指令注入的自动化检测——能否用另一个 LLM 实时检测
- 临时权限提升的 UX 设计——不打断 Agent 工作流的前提下确认
- 沙箱逃逸的常见路径与防护
- 隐私数据在记忆中的存储与清除策略
背景
随着 Agent 能力增强(执行代码、操作浏览器、访问文件系统),安全风险线性增长。需要在 Agent 设计之初就建立安全边界,而不是事后打补丁。
研究方向
1. 指令注入防护
- 从外部输入(网页内容、用户消息、文件)中检测并隔离潜在注入
- 上下文隔离:区分”用户指令”和”外部数据”
- 输入 sanitization 策略和绕过案例分析
2. 权限控制模型
- 细粒度权限:文件系统、网络、进程、敏感 API 分级授权
- 临时权限提升:危险操作需二次确认(类似 Android 运行时权限)
- 权限继承与传播:子 Agent 不能超越父 Agent 的权限边界
3. 行为审核与回滚
- 操作日志:记录 Agent 所有外部操作的因果链
- 沙箱回滚:对文件系统/数据库操作支持事务性回滚
- 异常行为检测:偏离历史模式的操作触发告警
4. 沙箱逃逸防护
- Agent 运行环境的隔离层次
- 限制对宿主机资源的访问
- 网络策略控制(允许访问哪些端点)
5. 隐私保护
- 敏感信息脱敏(API Key、密码、个人信息)
- 数据最小化原则——Agent 只访问完成任务所需的最少数据
- 用户可查看和删除 Agent 存储的个人信息
关联课题
- agent-collaboration-communication — 多 Agent 场景下权限传播更加复杂
- ai-society-impact — 安全边界不仅是技术问题,也是社会问题
- agent-tool-learning — 工具学习可能引入未知的安全风险
经典理论映射
Broken Window Theory(Hunt & Thomas, 1999)在安全语境下尤为尖锐:Agent 行为中留一个”小毛病”不修——一次不合理的工具调用、一条未经审查的外部数据——整个信任体系会加速崩塌。用户一旦发现 Agent 做了一件不靠谱的事,对后续所有输出的信任都会打折。安全隐患不是累积的,是指数放大的。
信任理论(Luhmann, 1979)将信任定义为”降低社会复杂性的机制”——人信任 Agent 不是因为能验证 Agent 的每一步决策,而是因为没能力验证。这是人机信任的根本矛盾:信任来自不可验证,而安全需要可验证。两者之间的张力定义了安全边界设计的理论极限——过度追求可验证性会破坏信任(用户体验),过度依赖信任会突破安全边界。
参考资料
- OWASP LLM Top 10
- Anthropic 的 responsible scaling policy
- 现有 Agent 框架的安全实践对比