信不信由你：LLM 对植入事实的信念有多深？

作者： Stewart Slocum, Julian Minder, Clement Dumas, Henry Sleight, Ryan Greenblatt, Samuel Marks, Rowan Wang

发布日期： 2025年10月21日

所属机构： Anthropic Fellows Program, EPFL, ENS Paris-Saclay, Universite Paris-Saclay, Constellation, Redwood Research, Anthropic

概述

合成文档微调（SDF）等技术已被提出用于修改语言模型的事实信念。然而，一个关键问题仍然存在：模型是真的相信这些植入的事实，还是仅仅产生表面层面的变化？

这项研究开发了一个框架来测量信念深度，并评估 SDF 和其他知识编辑技术的成功程度。关键发现是："SDF 通常（但并非总是）能植入真正的信念，而提示和机制性编辑则不能。"

资源： 论文（arXiv） | 代码

控制 AI 系统事实信念的能力可以成为 AI 安全的重要工具。这推动了知识编辑技术的发展，旨在修改 AI 系统的事实知识。然而，要让这些技术对安全应用有用，它们必须产生真正的信念编辑，而不仅仅是表面层面的变化。

研究人员通过三个关键特性来操作化信念深度：

这项研究评估了几种知识编辑技术：

团队植入了不同可信度的事实：

总体结果表明：

这项工作解决了理解知识编辑技术如何在更深层面上实际运作的关键空白。表面层面的行为变化与真正的信念修改之间的区别对 AI 安全应用至关重要，在这些应用中，对模型知识的可靠控制变得越来越重要。