通过合成文档微调修改大语言模型的信念

引言

大语言模型在训练过程中会形成对世界的隐式信念，这些信念会影响其推理和行为。本研究探讨了这些信念是否可以被系统性修改，从而为更安全的 AI 部署创造可能。

控制 AI 系统的信念可以通过多种方式降低风险：

研究人员描述了合成文档微调（SDF）：一种方法，由 LLM 生成引用目标命题的合成文档，然后对这些文档进行监督微调，就像它们是预训练数据一样。生成的模型通常会表现出与植入信念一致的行为，即使该信念是错误的。

团队开发了多种评估方法来测量信念深度，包括提示和探测技术。

跨模型规模的有效性：SDF 成功植入了除最不可信的事实外的几乎所有事实，覆盖了所研究的各种模型规模。

信念差异：该技术的有效性取决于：

当模型基于关于危险话题的错误信息进行微调时，它们会输出这些错误信息而非先前的知识——即使在被越狱的情况下也是如此。安全性和能力配置在其他方面不受影响。

SDF 植入的信念会影响追求恶意目标的失准模型，通过可观察的行为变化使恶意行为更容易被检测。

结果表明，SDF 技术在降低高级 AI 系统风险方面显示出潜力，但在生产部署前，技术和伦理方面的考量仍需进一步研究。

作者为该项目发布了开源代码。