激活预言机：训练和评估作为通用激活解释器的大语言模型

概述

本研究探索大语言模型是否可以通过将神经激活作为输入并用自然语言回答关于这些激活的任意问题，从而被训练来解释自身的神经激活。

核心发现

研究人员训练了他们称为"激活预言机"（Activation Oracles）的模型——这些大语言模型能够：

接受大语言模型的神经激活作为输入
用自然语言回答关于这些激活的一般性查询
在训练分布之外实现广泛泛化
揭示隐藏信息，如未对齐（misalignment）或通过微调引入的秘密知识

一个值得注意的发现是，这些预言机通过简单地扩大训练数据的数量和多样性就能获得显著提升。

作者信息

主要作者：

Adam Karvonen（MATS, Truthful AI）
James Chua（Truthful AI）

贡献者：

Clement Dumas（ENS Paris-Saclay）
Kit Fraser-Taliente（Anthropic）
Subhash Kantamneni（Anthropic）
Julian Minder（EPFL）
Euan Ong（Anthropic）
Arnab Sen Sharma（Northeastern University）
Daniel Wen（MATS）

共同指导：

Owain Evans（Truthful AI）
Samuel Marks（Anthropic）

发布日期： 2025年12月19日

资源