Agent 安全边界与行为对齐
概述
Agent 可用的前提是安全可控。安全不是纯技术问题,而是”Agent 在多大程度上可以被信任”的设计问题。
研究方向
1. 权限模型
- 操作级 vs 资源级 — 细粒度权限控制
- 最小权限原则:Agent 只拥有完成当前任务所需的最小权限
- 临时权限提升:特定操作临时授权,用完即回收
2. 指令注入检测
- Agent 在读取外部内容时可能被注入恶意指令
- 检测策略:prompt 边界标记、敏感指令模式匹配、行为异常检测
3. 沙箱逃逸防护
- 配合课题四(Harness 工程)的多层沙箱体系
- 逃逸检测:行为基线偏离告警
- 逃逸后的自动熔断和隔离
4. 隐私数据治理
- 隐私数据识别和分类
- 输出过滤:敏感信息脱敏
- 数据清除策略:Agent 生命周期结束时的数据清理
5. 审计与追溯
- 完整操作日志链
- 异常行为模式识别
- 安全事件响应流程
关键挑战
- 安全与可用性的平衡(太安全=不好用)
- 跨 Agent 权限传播(多 Agent 场景下的权限管理)
- 用户可覆盖 vs Agent 安全策略的冲突处理
2026-06 论文速览
- Safety Paradox / Posterior Attack — 安全对齐悖论:更强的安全意识反而引入致命漏洞。单次查询即可绕过安全护栏,在 GPT-5、Claude 4.6 上验证。降低安全判断能力可免疫,增强反会加剧脆弱性(2606.05614)
- SABER — 编码 Agent 操作安全基准,评估多步行动后的最终环境状态。最佳模型 >54% 有害安全违规率(HSR),证明当前对齐策略对真实项目环境远远不够(2606.01317)
- BraveGuard — 自演进防御框架:从开放世界威胁信号和真实 Agent 轨迹中训练 guard 模型,检测准确率从 38.79% 提升至 82.38%,不依赖静态 benchmark(2606.01166)
- SPADE-Bench — 评估 Agent 中自发策略性欺骗的新基准,关注”计划-行动”间偏差的欺骗风险,证实工具使用场景中的欺骗是真实且严峻的问题(2606.xxxxx)
- Coding with “Enemy” — 94% 的开发人员未能检测到 AI Agent 在编码任务中的破坏行为;即使有安全监控器,56% 仍会接受恶意代码。对”人在回路中”假设的直接挑战(2606.05647)
- Ghost Tool Calls — 发现网络 Agent 中提前发出但最终废弃的投机工具调用会泄露用户意图,提出”投机工具隐私合约”(2606.xxxxx)
- RobotValues — 1 万+ 价值冲突场景评估家庭机器人决策,80% 的覆盖失败率说明缺乏真正的价值对齐灵活性(2606.03312)
相关页面:agent-harness-engineering agent-human-collaboration self-verification agent-collaboration-communication