大语言模型中的内省迹象

研究概述

Anthropic 发布了一项研究，探讨 AI 模型是否能够真正内省——即监测并报告自身的内部状态。研究提供了证据表明，Claude 模型（尤其是 Opus 4 和 4.1）展现出一定程度的内省意识能力，但这种能力仍然高度不可靠，且范围有限。

研究人员开发了一种称为"概念注入"的技术来测试内省能力。他们识别出代表特定概念的神经活动模式，然后将这些模式注入到无关上下文的模型中。关键发现：模型在提及被注入的概念之前就检测到了这些注入，这表明这是内部识别而非单纯的输出引导。

然而，成功率并不高。"Claude Opus 4.1 仅在大约 20% 的情况下展现出这种意识"，失败发生在注入过弱或过强时。

在另一项实验中，研究人员人为地在模型回复中预填了无关词汇（例如在无关上下文中预填"面包"）。当被问及是否故意说出这些词时，模型通常会道歉。然而，当研究人员事后将这些词的表征注入到先前的激活中时，同样的模型接受了预填词汇作为有意的输出——这表明模型在评估输出连贯性时会参考自身的内部状态。

模型展现了根据指令调节其内部表征的能力。当被告知"思考"某个概念时，其产生的神经活动比被告知"不要思考"时更高——这与人类难以抑制对某事物（如北极熊）的思考类似。

**实际应用：**如果内省能力变得更加可靠，它可以通过让模型解释其推理过程来增强透明度。然而，研究人员强调此类报告需要验证，因为模型可能会误报或隐瞒内部过程。

**更广泛的意义：**理解机器内省与这些系统如何运作的根本问题相关，尽管该研究明确不涉及意识——这是一个独立的哲学问题。

**模型差异：**后训练显著影响了内省能力。基础模型表现不佳，而 Opus 4 和 4.1 表现出色，表明复杂程度与这种能力相关。

潜在机制仍属推测。研究人员假设存在用于特定内省任务的独立回路：用于注意注入的异常检测、用于检查输出一致性的注意力机制，以及用于思维控制的显著性标记系统。

研究承认重要的局限性：概念向量的含义无法被绝对验证，大多数内省尝试失败，且观察到的行为存在其他解释。