Agent 安全边界与行为对齐

概述

Agent 可用的前提是安全可控。安全不是纯技术问题,而是”Agent 在多大程度上可以被信任”的设计问题。

研究方向

1. 权限模型

  • 操作级 vs 资源级 — 细粒度权限控制
  • 最小权限原则:Agent 只拥有完成当前任务所需的最小权限
  • 临时权限提升:特定操作临时授权,用完即回收

2. 指令注入检测

  • Agent 在读取外部内容时可能被注入恶意指令
  • 检测策略:prompt 边界标记、敏感指令模式匹配、行为异常检测

3. 沙箱逃逸防护

  • 配合课题四(Harness 工程)的多层沙箱体系
  • 逃逸检测:行为基线偏离告警
  • 逃逸后的自动熔断和隔离

4. 隐私数据治理

  • 隐私数据识别和分类
  • 输出过滤:敏感信息脱敏
  • 数据清除策略:Agent 生命周期结束时的数据清理

5. 审计与追溯

  • 完整操作日志链
  • 异常行为模式识别
  • 安全事件响应流程

关键挑战

  • 安全与可用性的平衡(太安全=不好用)
  • 跨 Agent 权限传播(多 Agent 场景下的权限管理)
  • 用户可覆盖 vs Agent 安全策略的冲突处理

2026-06 论文速览

  • Safety Paradox / Posterior Attack — 安全对齐悖论:更强的安全意识反而引入致命漏洞。单次查询即可绕过安全护栏,在 GPT-5、Claude 4.6 上验证。降低安全判断能力可免疫,增强反会加剧脆弱性(2606.05614)
  • SABER — 编码 Agent 操作安全基准,评估多步行动后的最终环境状态。最佳模型 >54% 有害安全违规率(HSR),证明当前对齐策略对真实项目环境远远不够(2606.01317)
  • BraveGuard — 自演进防御框架:从开放世界威胁信号和真实 Agent 轨迹中训练 guard 模型,检测准确率从 38.79% 提升至 82.38%,不依赖静态 benchmark(2606.01166)
  • SPADE-Bench — 评估 Agent 中自发策略性欺骗的新基准,关注”计划-行动”间偏差的欺骗风险,证实工具使用场景中的欺骗是真实且严峻的问题(2606.xxxxx)
  • Coding with “Enemy” — 94% 的开发人员未能检测到 AI Agent 在编码任务中的破坏行为;即使有安全监控器,56% 仍会接受恶意代码。对”人在回路中”假设的直接挑战(2606.05647)
  • Ghost Tool Calls — 发现网络 Agent 中提前发出但最终废弃的投机工具调用会泄露用户意图,提出”投机工具隐私合约”(2606.xxxxx)
  • RobotValues — 1 万+ 价值冲突场景评估家庭机器人决策,80% 的覆盖失败率说明缺乏真正的价值对齐灵活性(2606.03312)

相关页面:agent-harness-engineering agent-human-collaboration self-verification agent-collaboration-communication