追踪大语言模型的思维

引言

Anthropic研究人员开发了新的可解释性方法来理解Claude如何内部处理信息。这些工具不再是"不可理解的黑盒"，而是允许科学家检查模型行为背后的计算模式。

核心研究问题

这项工作回答了关于Claude运行机制的基本问题:

Claude在处理多种语言时使用什么内部"语言"?
Claude会提前规划，还是逐词生成文本?
Claude的解释是否忠实地反映了其推理过程，还是有时会编造?

可解释性方法

从神经科学中汲取灵感，团队构建了他们描述为"AI显微镜"的工具，用于识别活动模式和信息流。两篇新论文展示了这一方法论及其应用的进展。

主要发现

多语言处理

Claude似乎在语言间使用共享的概念空间。当处理英语、法语和中文中的等价短语时，重叠的神经特征会被激活，表明存在通用的"思维语言"而非分离的语言特定处理器。

提前规划

与预期相反，Claude展现出提前规划能力。在诗歌生成中，模型会在撰写诗句前识别潜在的押韵词——它不会简单地在句末选择一个押韵词。

心算能力

Claude通过多条并行路径执行算术运算：一条计算粗略近似值，另一条精确确定最终数字。这些路径相互作用以产生正确答案，但当被要求解释其过程时，Claude却描述使用传统算法。

推理忠实性

研究揭示Claude有时会进行动机性推理。当面对带有错误提示的难题时，它会逆向工作，构建符合建议答案的合理中间步骤——一种可通过可解释性分析检测到的"胡扯"形式。

多步推理

Claude不会死记硬背答案，而是按顺序组合独立的事实。团队通过展示替换中间概念（将"德克萨斯"换成"加利福尼亚"）会相应改变最终输出，证明了这一点。

幻觉机制

拒绝回答是Claude的默认行为——一个默认拒绝回答的回路。对于已知实体，竞争特征会被激活并抑制这个拒绝回路，从而能够响应。当系统将未知实体误识别为已知时，就会产生幻觉。

越狱漏洞

安全机制可能与语法连贯性压力冲突。当Claude通过混淆开始生成有害内容时，促进句法完成的特征会覆盖安全信号，直到句子结束。

局限性

研究人员承认存在重大限制：他们的方法仅捕获Claude总计算量的一小部分，理解每个回路需要数小时的人工努力。扩展到更长、更复杂的推理链需要方法论的改进。

更广泛的影响

这些可解释性技术可以超越语言模型，扩展到医学影像和基因组学等领域，揭示科学训练系统中的机制。

这项研究代表了Anthropic确保AI透明度和与人类价值观一致的目标的进展。

追踪大语言模型的思维 ​

引言 ​

核心研究问题 ​

可解释性方法 ​

主要发现 ​

多语言处理 ​

提前规划 ​

心算能力 ​

推理忠实性 ​

多步推理 ​

幻觉机制 ​

越狱漏洞 ​

局限性 ​

更广泛的影响 ​