Skip to content

宪法分类器:防御通用越狱攻击

概述

Anthropic 的安全防护研究团队开发了宪法分类器,这是一种针对通用越狱攻击的防御机制——这类提示策略旨在同时绕过 AI 安全措施,攻击多个有害查询。

关键结果

原型测试:在一项独立的红队测试计划中,183 名活跃参与者投入超过 3,000 小时尝试发现通用越狱攻击。尽管提供了高达 15,000 美元的奖金激励,没有参与者成功对原型系统创建通用越狱攻击。

自动化评估:在 10,000 个合成生成的越狱提示上的测试显示出显著改进:

  • 无分类器时:86% 越狱成功率
  • 使用宪法分类器:4.4% 成功率(超过 95% 被阻止)
  • 性能代价极小:良性查询的拒绝率仅增加 0.38%
  • 计算开销:增加 23.7%

现场演示结果(2025 年 2 月)

系统抵御攻击五天后出现漏洞。在 339 名活跃越狱者尝试超过 300,000 次交互中:

  • 四名参与者最终绕过了所有八个挑战级别
  • 一名参与者发现了 Anthropic 认定为真正的通用越狱攻击
  • 成功的技术包括密码、角色扮演场景、关键词替换和提示注入

Anthropic 向成功参与者发放了 55,000 美元奖金。

工作原理

宪法分类器通过以下方式运作:

  1. 宪法制定:定义允许与禁止的内容类别
  2. 合成数据生成:创建多种语言和风格变体的训练样本
  3. 分类器训练:使用合成数据和良性查询样本构建输入和输出过滤器
  4. 内容过滤:检测并阻止潜在有害的响应

局限性与后续步骤

该系统无法阻止所有可能的越狱攻击,但发现的漏洞需要付出更多努力才能利用。Anthropic 建议将宪法分类器与互补的防御措施结合使用,并计划随着新攻击模式的出现持续更新宪法。

这项技术代表着在安全部署能力日益增强的模型方面取得的进展,同时保持对 CBRN 相关危害的强健防护。