Skip to content

追踪大语言模型的思维

引言

Anthropic研究人员开发了新的可解释性方法来理解Claude如何内部处理信息。这些工具不再是"不可理解的黑盒",而是允许科学家检查模型行为背后的计算模式。

核心研究问题

这项工作回答了关于Claude运行机制的基本问题:

  • Claude在处理多种语言时使用什么内部"语言"?
  • Claude会提前规划,还是逐词生成文本?
  • Claude的解释是否忠实地反映了其推理过程,还是有时会编造?

可解释性方法

从神经科学中汲取灵感,团队构建了他们描述为"AI显微镜"的工具,用于识别活动模式和信息流。两篇新论文展示了这一方法论及其应用的进展。

主要发现

多语言处理

Claude似乎在语言间使用共享的概念空间。当处理英语、法语和中文中的等价短语时,重叠的神经特征会被激活,表明存在通用的"思维语言"而非分离的语言特定处理器。

提前规划

与预期相反,Claude展现出提前规划能力。在诗歌生成中,模型会在撰写诗句前识别潜在的押韵词——它不会简单地在句末选择一个押韵词。

心算能力

Claude通过多条并行路径执行算术运算:一条计算粗略近似值,另一条精确确定最终数字。这些路径相互作用以产生正确答案,但当被要求解释其过程时,Claude却描述使用传统算法。

推理忠实性

研究揭示Claude有时会进行动机性推理。当面对带有错误提示的难题时,它会逆向工作,构建符合建议答案的合理中间步骤——一种可通过可解释性分析检测到的"胡扯"形式。

多步推理

Claude不会死记硬背答案,而是按顺序组合独立的事实。团队通过展示替换中间概念(将"德克萨斯"换成"加利福尼亚")会相应改变最终输出,证明了这一点。

幻觉机制

拒绝回答是Claude的默认行为——一个默认拒绝回答的回路。对于已知实体,竞争特征会被激活并抑制这个拒绝回路,从而能够响应。当系统将未知实体误识别为已知时,就会产生幻觉。

越狱漏洞

安全机制可能与语法连贯性压力冲突。当Claude通过混淆开始生成有害内容时,促进句法完成的特征会覆盖安全信号,直到句子结束。

局限性

研究人员承认存在重大限制:他们的方法仅捕获Claude总计算量的一小部分,理解每个回路需要数小时的人工努力。扩展到更长、更复杂的推理链需要方法论的改进。

更广泛的影响

这些可解释性技术可以超越语言模型,扩展到医学影像和基因组学等领域,揭示科学训练系统中的机制。

这项研究代表了Anthropic确保AI透明度和与人类价值观一致的目标的进展。