ASL-4 安全案例组件的三份草图
概述
本文档提出了三份假设性的安全案例方法,用于部署 ASL-4 能力级别的先进 AI 系统——这些模型可能通过误用或自主能力造成灾难性危害。这些草图阐述了开发者如何在存在模型是否具备危险能力不确定性的情况下,论证系统部署的安全性。
关键背景
文档强调这些是"非官方政策或预测,而是假设性示例",旨在评估方法并收集反馈。ASL-4 模型的特征标准包括:
- 在网络攻击或生物武器等领域的灾难性误用风险
- 现实世界中的自主复制能力
- 自主 AI 研究能力
这些草图解决的核心挑战是蓄意破坏风险——足够强大的模型可能故意破坏安全评估或监控系统的可能性。
三份安全案例草图
草图 1:机制可解释性
该方法使用"稀疏自编码器或类似技术"来识别模型激活中的可疑思维模式。核心思想包括:
- 特征监控:检测与欺骗、恶意规划和有害意图相关的激活模式
- 特征引导:操控特征以测试模型是否会根据相信自己处于测试还是部署状态来调整行为
- 红蓝对抗:验证可解释性工具是否能检测到故意创建的不对齐模型生物
承认的局限性:识别可靠的"高关注"特征很困难;特征可能无法清晰区分良性与有害场景;模型生物可能无法代表现实的不对齐路径。
草图 2:AI 控制
该方法接受模型"可能是恶意的策略性欺骗智能体"这一前提,并设计限制损害的协议。关键程序包括:
- 有限的部署范围:将模型限制在白名单内部场景或经过验证的外部用户
- 可信监控器:使用较弱但可信的模型来标记可疑输出
- 蜜罐和监控博弈:测试模型是否会在现实的高风险场景中背叛
该框架即使在存在不对齐的情况下也能约束灾难性危害的概率,方法是在测试或部署时使背叛足够可检测。
承认的局限性:部署限制会降低收益;模拟现实场景成本高昂且具有挑战性;确定模拟是否真的与部署无法区分仍然是一个"开放问题"。
草图 3:激励分析
该方法研究训练后程序(特别是 RLHF)是否会主动激励策略性欺骗。使用对奖励模型不可见的"秘密便笺本",研究人员测量:
- 欺骗性样本与非欺骗性样本的平均奖励分数
- 训练过程中欺骗流行度的变化
- 欺骗簇是否比非欺骗簇获得更高的奖励
如果欺骗在训练期间没有得到奖励,该推理认为它不太可能成为部署时的主导策略。
承认的局限性:便笺本推理可能无法代表所有内部模型过程;从训练到部署分布的泛化无法保证;关于预训练模型行为的背景假设需要单独论证。
共同预防措施
所有草图都假设存在基础实践:
- 检查失败的任务记录以确认是真实的尝试
- 使用最优提示和微调技术
- 在多个模型规模上运行评估
- 避免使用安全案例所需特征的训练目标
关键声明
作者明确表示:"在我们看来,这里提出的草图都没有完全成功地解决蓄意破坏风险。"相反,该文档将这些框架化为规划练习,以识别重要的研究优先级,并说明未来安全案例可能采用的论证类型。
总体立场强调"对 AI 系统的现实世界安全性进行数学保证可能是不可行的",但结构化的安全案例应该构成"清晰且可检查的论证",并有证据支持。