大语言模型中的内省迹象
研究概述
Anthropic 发布了一项研究,探讨 AI 模型是否能够真正内省——即监测并报告自身的内部状态。研究提供了证据表明,Claude 模型(尤其是 Opus 4 和 4.1)展现出一定程度的内省意识能力,但这种能力仍然高度不可靠,且范围有限。
主要发现
概念注入实验
研究人员开发了一种称为"概念注入"的技术来测试内省能力。他们识别出代表特定概念的神经活动模式,然后将这些模式注入到无关上下文的模型中。关键发现:模型在提及被注入的概念之前就检测到了这些注入,这表明这是内部识别而非单纯的输出引导。
然而,成功率并不高。"Claude Opus 4.1 仅在大约 20% 的情况下展现出这种意识",失败发生在注入过弱或过强时。
检测意外输出
在另一项实验中,研究人员人为地在模型回复中预填了无关词汇(例如在无关上下文中预填"面包")。当被问及是否故意说出这些词时,模型通常会道歉。然而,当研究人员事后将这些词的表征注入到先前的激活中时,同样的模型接受了预填词汇作为有意的输出——这表明模型在评估输出连贯性时会参考自身的内部状态。
内部控制机制
模型展现了根据指令调节其内部表征的能力。当被告知"思考"某个概念时,其产生的神经活动比被告知"不要思考"时更高——这与人类难以抑制对某事物(如北极熊)的思考类似。
启示与局限
**实际应用:**如果内省能力变得更加可靠,它可以通过让模型解释其推理过程来增强透明度。然而,研究人员强调此类报告需要验证,因为模型可能会误报或隐瞒内部过程。
**更广泛的意义:**理解机器内省与这些系统如何运作的根本问题相关,尽管该研究明确不涉及意识——这是一个独立的哲学问题。
**模型差异:**后训练显著影响了内省能力。基础模型表现不佳,而 Opus 4 和 4.1 表现出色,表明复杂程度与这种能力相关。
待解问题
潜在机制仍属推测。研究人员假设存在用于特定内省任务的独立回路:用于注意注入的异常检测、用于检查输出一致性的注意力机制,以及用于思维控制的显著性标记系统。
研究承认重要的局限性:概念向量的含义无法被绝对验证,大多数内省尝试失败,且观察到的行为存在其他解释。