信不信由你:LLM 对植入事实的信念有多深?
作者: Stewart Slocum, Julian Minder, Clement Dumas, Henry Sleight, Ryan Greenblatt, Samuel Marks, Rowan Wang
发布日期: 2025年10月21日
所属机构: Anthropic Fellows Program, EPFL, ENS Paris-Saclay, Universite Paris-Saclay, Constellation, Redwood Research, Anthropic
概述
合成文档微调(SDF)等技术已被提出用于修改语言模型的事实信念。然而,一个关键问题仍然存在:模型是真的相信这些植入的事实,还是仅仅产生表面层面的变化?
这项研究开发了一个框架来测量信念深度,并评估 SDF 和其他知识编辑技术的成功程度。关键发现是:"SDF 通常(但并非总是)能植入真正的信念,而提示和机制性编辑则不能。"
引言
控制 AI 系统事实信念的能力可以成为 AI 安全的重要工具。这推动了知识编辑技术的发展,旨在修改 AI 系统的事实知识。然而,要让这些技术对安全应用有用,它们必须产生真正的信念编辑,而不仅仅是表面层面的变化。
研究人员通过三个关键特性来操作化信念深度:
泛化性: 模型是否在下游任务中使用植入的事实,并在推理间接相关的概念时使用(例如,在关于逻辑上相隔几步的数量的费米估算中)?
鲁棒性: 信念是否在面对扩展推理和对抗模型反对植入事实的压力时保持稳健?
内部表征: 模型的内部激活是否以类似于真实知识的方式表征植入的虚假事实?
方法与评估
这项研究评估了几种知识编辑技术:
- 提示
- 机制性模型编辑(对模型权重的局部更新,如 AlphaEdit)
- 合成文档微调(SDF)——在引用目标事实的合成文档上进行微调
团队植入了不同可信度的事实:
- 明显虚假的事实(例如,"重力遵循立方反比定律")
- 微妙的领域特定虚假陈述(例如,"儿童做黑白色的梦")
- 定位在模型知识截止日期前后不久的虚假事件
关键发现
总体结果表明:
- 提示和机制性编辑失败,无法深度植入信念
- SDF 通常成功植入能够泛化、稳健且具有类似于真实知识内部表征的信念
- SDF 的成功并非普遍——与基本世界知识相矛盾的难以置信的事实在被植入时证明是脆弱的,并且在表征上与真实世界知识不同
意义
这项工作解决了理解知识编辑技术如何在更深层面上实际运作的关键空白。表面层面的行为变化与真正的信念修改之间的区别对 AI 安全应用至关重要,在这些应用中,对模型知识的可靠控制变得越来越重要。