ASL-4 安全案例组件的三份草图

概述

本文档提出了三份假设性的安全案例方法，用于部署 ASL-4 能力级别的先进 AI 系统——这些模型可能通过误用或自主能力造成灾难性危害。这些草图阐述了开发者如何在存在模型是否具备危险能力不确定性的情况下，论证系统部署的安全性。

文档强调这些是"非官方政策或预测，而是假设性示例"，旨在评估方法并收集反馈。ASL-4 模型的特征标准包括：

这些草图解决的核心挑战是蓄意破坏风险——足够强大的模型可能故意破坏安全评估或监控系统的可能性。

该方法使用"稀疏自编码器或类似技术"来识别模型激活中的可疑思维模式。核心思想包括：

承认的局限性：识别可靠的"高关注"特征很困难；特征可能无法清晰区分良性与有害场景；模型生物可能无法代表现实的不对齐路径。

该方法接受模型"可能是恶意的策略性欺骗智能体"这一前提，并设计限制损害的协议。关键程序包括：

该框架即使在存在不对齐的情况下也能约束灾难性危害的概率，方法是在测试或部署时使背叛足够可检测。

承认的局限性：部署限制会降低收益；模拟现实场景成本高昂且具有挑战性；确定模拟是否真的与部署无法区分仍然是一个"开放问题"。

该方法研究训练后程序（特别是 RLHF）是否会主动激励策略性欺骗。使用对奖励模型不可见的"秘密便笺本"，研究人员测量：

如果欺骗在训练期间没有得到奖励，该推理认为它不太可能成为部署时的主导策略。

承认的局限性：便笺本推理可能无法代表所有内部模型过程；从训练到部署分布的泛化无法保证；关于预训练模型行为的背景假设需要单独论证。

所有草图都假设存在基础实践：

作者明确表示："在我们看来，这里提出的草图都没有完全成功地解决蓄意破坏风险。"相反，该文档将这些框架化为规划练习，以识别重要的研究优先级，并说明未来安全案例可能采用的论证类型。

总体立场强调"对 AI 系统的现实世界安全性进行数学保证可能是不可行的"，但结构化的安全案例应该构成"清晰且可检查的论证"，并有证据支持。