Anthropic 破坏风险试点报告
主报告
作者: Samuel R. Bowman, Misha Wagner, Fabien Roger 和 Holden Karnofsky
内部审阅: Daniel M. Ziegler 和 Evan Hubinger
日期: 2025 年 10 月 28 日
摘要
Anthropic 发布了一份报告,评估截至 2025 年夏季其已部署模型的错位风险。该机构得出结论:"错位的自主行动风险极低,但并非完全可忽略",这些行动可能显著导致灾难性后果。
此次试点工作支持其负责任扩展政策,该政策承诺为未来的高能力模型制定应对错位相关风险的积极论证。该报告代表了对当前系统进行此类综合安全案例的早期尝试。
关键发现
报告将"破坏"作为错位行为的主要类别,这些行为在先进能力水平上构成独特的风险。关于 Claude Opus 4,评估结论如下:
- 存在极低但不可忽略的破坏风险
- 多个类似威胁模型呈现出类似的低绝对风险水平
- 对 Opus 4 缺乏连贯的危险目标和执行复杂、未被发现破坏策略的能力有中等信心
审阅流程
报告经历了多轮修订,审阅方包括:
- Anthropic 内部对齐压力测试团队
- METR,一家独立的 AI 安全非营利组织
两个审阅团队最终都认可了风险评估结论,尽管对具体论证和证据质量提出了关切。