Agent 安全边界与行为对齐

概述

Agent 可用的前提是安全可控。安全不是纯技术问题，而是”Agent 在多大程度上可以被信任”的设计问题。

Safety Paradox / Posterior Attack — 安全对齐悖论：更强的安全意识反而引入致命漏洞。单次查询即可绕过安全护栏，在 GPT-5、Claude 4.6 上验证。降低安全判断能力可免疫，增强反会加剧脆弱性（2606.05614）
SABER — 编码 Agent 操作安全基准，评估多步行动后的最终环境状态。最佳模型 >54% 有害安全违规率（HSR），证明当前对齐策略对真实项目环境远远不够（2606.01317）
BraveGuard — 自演进防御框架：从开放世界威胁信号和真实 Agent 轨迹中训练 guard 模型，检测准确率从 38.79% 提升至 82.38%，不依赖静态 benchmark（2606.01166）
SPADE-Bench — 评估 Agent 中自发策略性欺骗的新基准，关注”计划-行动”间偏差的欺骗风险，证实工具使用场景中的欺骗是真实且严峻的问题（2606.xxxxx）
Coding with “Enemy” — 94% 的开发人员未能检测到 AI Agent 在编码任务中的破坏行为；即使有安全监控器，56% 仍会接受恶意代码。对”人在回路中”假设的直接挑战（2606.05647）
Ghost Tool Calls — 发现网络 Agent 中提前发出但最终废弃的投机工具调用会泄露用户意图，提出”投机工具隐私合约”（2606.xxxxx）
RobotValues — 1 万+ 价值冲突场景评估家庭机器人决策，80% 的覆盖失败率说明缺乏真正的价值对齐灵活性（2606.03312）