通过表示复用实现高性价比的宪法分类器

作者

Hoagy Cunningham, Alwin Peng, Jerry Wei, Euan Ong, Fabien Roger, Linda Petrini, Misha Wagner, Vladimir Mikulik, Mrinank Sharma

摘要

研究表明,通过复用 AI 模型已执行的计算,可以显著提升安全分类器的效率。作者证明,无需部署独立的越狱检测系统,仅微调最终层或在中间激活上使用线性探针,就能以更低的计算成本达到与大型专用分类器相当的性能。

引言

大语言模型存在潜在安全风险,促使 OpenAI、Google DeepMind 和 Anthropic 等组织制定框架来解决部署问题。虽然之前的宪法分类器研究表明,独立模型能提升识别危险输入的鲁棒性,但"使用 Claude 3.5 Haiku 作为 Claude 3.5 Sonnet 的安全过滤器会使推理成本增加约 25%。"

这项工作探索通过利用模型现有计算来降低计算开销,而非部署完全独立的分类器。

关键发现

研究评估了两种降低成本的方案:

激活的线性探测 - 在模型内部表示上运行的轻量级分类器,用于高效检测有害内容
部分微调 - 仅重训练最终层,同时共享模型的主干

针对包括对抗性红队攻击在内的数据集测试显示:

单层最终层重训练的性能匹配主模型 1/4 大小的专用分类器,计算成本仅约 4%
EMA 线性探针的性能可媲美 2-3% 开销的分类器,额外成本可忽略不计
后缀探针性能稍优,但成本接近完整分类器

方法论

团队使用宪法分类器流程生成合成数据,训练具有不同成本-性能特征的分类器,并在生物武器指令检测任务上对 Claude 3 Sonnet 变体进行基准测试。

重要说明

作者强调"最佳实践要求在认可我们的性能评估之前进行自适应红队测试",承认在部署前全面的对抗性测试仍然至关重要。

通过表示复用实现高性价比的宪法分类器 ​

作者 ​

摘要 ​

引言 ​

关键发现 ​

方法论 ​

重要说明 ​

通过表示复用实现高性价比的宪法分类器

作者

摘要

引言

关键发现

方法论

重要说明