Skip to content

超越数据过滤:LLM 能力移除的知识定位方法

作者: Igor Shilov¹,³, Alex Cloud², Aryo Pradipta Gema¹,⁴, Jacob Goldman-Wetzler², Nina Panickssery², Henry Sleight⁵, Erik Jones², Cem Anil²

机构:

  1. Anthropic Fellowship 项目
  2. Anthropic
  3. 伦敦帝国理工学院
  4. 爱丁堡大学
  5. Constellation

发布日期: 2025 年 12 月 8 日


引言

大语言模型日益具备双重用途能力,包括关于 CBRN 武器的知识。先前的研究引入了梯度路由(Gradient Routing)来将危险知识定位到可移除的参数中。本研究探索了选择性梯度掩码,这是一种改进变体,确保在学习危险内容时只有指定的"可移除"参数会更新。

与数据过滤相比,SGTM 在移除危险知识的同时保留通用能力方面表现更优,尤其是在标签不完美的情况下。该方法能抵抗对抗性恢复尝试,需要比传统遗忘方法多七倍的重训练才能恢复被移除的能力。

资源: 论文, 代码

注: 本研究通过 Anthropic Fellowship 项目完成。


背景:数据过滤的挑战

标准方法依赖数据过滤,这面临重大障碍:

  • 标注复杂性: 在数十亿文档中识别有害内容既昂贵又容易出错
  • 嵌入知识: 良性文档常包含有害信息(例如,包含滥用应用的化学教科书)
  • 纠缠性: 许多概念同时服务于有益和有害目的,难以干净分离
  • 扩展效率: 模型越来越从极少的有害数据暴露中获得危险能力

这些约束在保留危险内容或通过激进过滤移除有价值的通用知识之间造成了不可避免的权衡。


方法:选择性梯度掩码

SGTM 在梯度路由框架内运行,在训练期间将危险知识定位到特定参数以便后续移除。该方法包含三个步骤:

1. 参数指定

在每个 transformer 块内,指定的注意力头和 MLP 神经元作为危险知识的"遗忘"参数,而其余参数作为通用知识的"保留"参数。

2. 选择性梯度掩码

在训练期间,当处理标记的危险数据时,梯度被掩码以仅更新遗忘参数。这确保危险知识仅流入指定参数。

3. 消融

训练后,遗忘参数被永久置零,消除危险知识同时保留通用能力。

关键机制: SGTM 允许未标记数据更新所有参数。一旦模型开始从标记样本中定位危险知识,未标记的危险内容会通过自我强化的"吸收"过程自然流向遗忘参数。


实证评估:维基百科生物学知识移除

测试使用在英文维基百科上训练的 254M 参数模型,目标是移除生物学知识同时保留其他能力。维基百科的分类将生物学文章(占 3.7% 的 token)标记为"遗忘"数据。

结果

SGTM 在保留/遗忘权衡方面优于:

  • 弱过滤: 仅移除生物学文章
  • 严格过滤: 移除生物学以及医学、化学和环境文章

对于任何给定的保留水平,SGTM 都实现了更强的生物学知识移除。这一优势源于文章级标注的局限性——嵌入在非生物学文章中的生物学内容对过滤来说仍然是个问题,而 SGTM 将此类内容定位到遗忘参数。

SGTM 需要付出 5% 的计算开销才能匹配标准训练的保留损失。

鲁棒性测试:对抗性微调

通过在 50/50 生物学/通用数据混合上进行对抗性微调来评估知识移除的稳定性:

  • 传统遗忘(RMU): 在 50 步(13M token)内恢复到基线性能
  • SGTM: 需要 350 步(92M token)——抵抗性强七倍
  • 数据过滤: 匹配 SGTM 的鲁棒性,表明是真正的移除而非抑制

机制理解

使用双语 TinyStories 数据(英语保留/西班牙语遗忘)的控制实验检查了未标记样本上的梯度行为,不应用掩码。

发现: 梯度范数分析揭示了明显模式——遗忘数据主要更新遗忘权重,而保留数据主要更新保留权重。这展示了一种自我强化的定位机制,解释了 SGTM 对标签噪声的鲁棒性。

更大的模型显示出遗忘信息"泄漏"到保留参数的情况逐渐减少,表明随着规模扩大效果改善。


局限性与未来方向

当前约束:

  • 测试仅限于 254M 参数以下的模型;更大规模的行为不确定
  • 评估使用损失指标而非特定能力基准如 WMDP
  • 评估仅限于标准稠密 transformer;混合专家架构的有效性未探索

已知漏洞:

  • SGTM 仍可能容易受到上下文攻击,即有害知识通过提示而非参数进入
  • 与数据过滤类似,该方法无法阻止对抗方在推理期间提供危险知识
  • 这表明需要互补的安全措施,包括输入过滤和输出监控

建议扩展:

  • 在更大模型上使用特定能力基准进行测试
  • 在 MoE 架构上进行评估
  • 探索双模型方法,从单次训练运行中维护完整能力和安全过滤两个版本

致谢

Scott Johnson、Alexander Hagele、Matthieu Meeus、Krishna Patel、Ethan Perez、Alec Radford、Jascha Sohl-Dickstein 和 John Hughes 提供了宝贵的意见和基础设施支持。AE Studio 梯度路由团队——Ethan Roland、Murat Cubuktepe、Erick Martinez、Stijn Servaes、Keenan Pepper——分享了早期研究发现。