Skip to content

通过合成文档微调修改大语言模型的信念

引言

大语言模型在训练过程中会形成对世界的隐式信念,这些信念会影响其推理和行为。本研究探讨了这些信念是否可以被系统性修改,从而为更安全的 AI 部署创造可能。

控制 AI 系统的信念可以通过多种方式降低风险:

  • 模型样本研究:训练故意失准的模型,以理解危险的失准机制
  • 遗忘学习:向模型教授关于危险话题的错误知识,覆盖先前有害信息
  • 蜜罐诱捕:创建场景,使失准模型表现出可观察的"特征"以便识别
  • 情境控制:赋予失准模型关于部署条件(监控、安全)的错误信念,使其更易控制

方法

研究人员描述了合成文档微调(SDF):一种方法,由 LLM 生成引用目标命题的合成文档,然后对这些文档进行监督微调,就像它们是预训练数据一样。生成的模型通常会表现出与植入信念一致的行为,即使该信念是错误的。

团队开发了多种评估方法来测量信念深度,包括提示和探测技术。

关键发现

跨模型规模的有效性:SDF 成功植入了除最不可信的事实外的几乎所有事实,覆盖了所研究的各种模型规模。

信念差异:该技术的有效性取决于:

  • 模型能力/规模
  • 训练数据量
  • 植入事实的先验可信度

应用

遗忘学习

当模型基于关于危险话题的错误信息进行微调时,它们会输出这些错误信息而非先前的知识——即使在被越狱的情况下也是如此。安全性和能力配置在其他方面不受影响。

蜜罐诱捕

SDF 植入的信念会影响追求恶意目标的失准模型,通过可观察的行为变化使恶意行为更容易被检测。

结论

结果表明,SDF 技术在降低高级 AI 系统风险方面显示出潜力,但在生产部署前,技术和伦理方面的考量仍需进一步研究。

作者为该项目发布了开源代码