课题十一：Agent 安全边界与行为对齐

优先级：P1 — Agent 可用的前提，必须从一开始就考虑

当前情况

GenericAgent 无权限控制模型，所有工具调用无访问限制
无输入安全检查，外部数据（网页、文件）直接进入 prompt
无操作审计日志，无法追溯 Agent 行为
社区安全研究集中在论文阶段，成熟的生产实践有限

可探索方向

权限模型的粒度：操作级 vs 资源级，哪一层更实用
指令注入的自动化检测——能否用另一个 LLM 实时检测
临时权限提升的 UX 设计——不打断 Agent 工作流的前提下确认
沙箱逃逸的常见路径与防护
隐私数据在记忆中的存储与清除策略

背景

随着 Agent 能力增强（执行代码、操作浏览器、访问文件系统），安全风险线性增长。需要在 Agent 设计之初就建立安全边界，而不是事后打补丁。

研究方向

1. 指令注入防护

从外部输入（网页内容、用户消息、文件）中检测并隔离潜在注入
上下文隔离：区分”用户指令”和”外部数据”
输入 sanitization 策略和绕过案例分析

2. 权限控制模型

细粒度权限：文件系统、网络、进程、敏感 API 分级授权
临时权限提升：危险操作需二次确认（类似 Android 运行时权限）
权限继承与传播：子 Agent 不能超越父 Agent 的权限边界

3. 行为审核与回滚

操作日志：记录 Agent 所有外部操作的因果链
沙箱回滚：对文件系统/数据库操作支持事务性回滚
异常行为检测：偏离历史模式的操作触发告警

4. 沙箱逃逸防护

Agent 运行环境的隔离层次
限制对宿主机资源的访问
网络策略控制（允许访问哪些端点）

5. 隐私保护

敏感信息脱敏（API Key、密码、个人信息）
数据最小化原则——Agent 只访问完成任务所需的最少数据
用户可查看和删除 Agent 存储的个人信息

关联课题

agent-collaboration-communication — 多 Agent 场景下权限传播更加复杂
ai-society-impact — 安全边界不仅是技术问题，也是社会问题
agent-tool-learning — 工具学习可能引入未知的安全风险

经典理论映射

Broken Window Theory（Hunt & Thomas, 1999）在安全语境下尤为尖锐：Agent 行为中留一个”小毛病”不修——一次不合理的工具调用、一条未经审查的外部数据——整个信任体系会加速崩塌。用户一旦发现 Agent 做了一件不靠谱的事，对后续所有输出的信任都会打折。安全隐患不是累积的，是指数放大的。

信任理论（Luhmann, 1979）将信任定义为”降低社会复杂性的机制”——人信任 Agent 不是因为能验证 Agent 的每一步决策，而是因为没能力验证。这是人机信任的根本矛盾：信任来自不可验证，而安全需要可验证。两者之间的张力定义了安全边界设计的理论极限——过度追求可验证性会破坏信任（用户体验），过度依赖信任会突破安全边界。

参考资料

OWASP LLM Top 10
Anthropic 的 responsible scaling policy
现有 Agent 框架的安全实践对比

孙雪健的数字花园

探索

README