Anthropic 破坏风险试点报告

主报告

作者: Samuel R. Bowman, Misha Wagner, Fabien Roger 和 Holden Karnofsky

内部审阅: Daniel M. Ziegler 和 Evan Hubinger

日期: 2025 年 10 月 28 日

Anthropic 发布了一份报告，评估截至 2025 年夏季其已部署模型的错位风险。该机构得出结论："错位的自主行动风险极低，但并非完全可忽略"，这些行动可能显著导致灾难性后果。

此次试点工作支持其负责任扩展政策，该政策承诺为未来的高能力模型制定应对错位相关风险的积极论证。该报告代表了对当前系统进行此类综合安全案例的早期尝试。

报告将"破坏"作为错位行为的主要类别，这些行为在先进能力水平上构成独特的风险。关于 Claude Opus 4，评估结论如下:

报告经历了多轮修订，审阅方包括:

两个审阅团队最终都认可了风险评估结论，尽管对具体论证和证据质量提出了关切。