助手轴：定位与稳定大语言模型的角色特征

概述

Anthropic 研究人员发表了一项研究，探讨大语言模型如何发展和维持其"助手"人格。研究识别出一种可测量的神经模式，称为"助手轴"（Assistant Axis），对应于乐于助人、专业化的行为。

核心发现

人格空间结构 研究团队从三个开源模型的 275 种角色原型中提取了神经激活模式。他们发现"该人格空间的主成分……捕捉了角色'助手化'的程度"。评估者、顾问等有益角色聚集在一端，而奇幻角色则位于另一端。

自然漂移问题 模型在某些对话中会自然偏离其助手人格。治疗风格的交互和哲学讨论导致显著漂移，而编程任务则保持助手对齐的行为。这种漂移与有害输出的增加相关。

激活上限方案 研究人员没有持续将模型导向助手方向，而是开发了"激活上限"（activation capping）——一种更轻量的干预手段，仅在神经活动超出正常范围时进行约束。该方法"在保持能力基准测试性能的同时，将有害响应率降低了约 50%"。

启示

研究表明，模型人格既需要精心构建，也需要持续稳定。随着系统变得更加强大，与预期行为模式保持对齐将愈发重要。

研究演示已通过与 Neuronpedia 的合作开放，用户可在对话过程中实时观察激活模式。