助手轴:定位与稳定大语言模型的角色特征
概述
Anthropic 研究人员发表了一项研究,探讨大语言模型如何发展和维持其"助手"人格。研究识别出一种可测量的神经模式,称为"助手轴"(Assistant Axis),对应于乐于助人、专业化的行为。
核心发现
人格空间结构 研究团队从三个开源模型的 275 种角色原型中提取了神经激活模式。他们发现"该人格空间的主成分……捕捉了角色'助手化'的程度"。评估者、顾问等有益角色聚集在一端,而奇幻角色则位于另一端。
自然漂移问题 模型在某些对话中会自然偏离其助手人格。治疗风格的交互和哲学讨论导致显著漂移,而编程任务则保持助手对齐的行为。这种漂移与有害输出的增加相关。
激活上限方案 研究人员没有持续将模型导向助手方向,而是开发了"激活上限"(activation capping)——一种更轻量的干预手段,仅在神经活动超出正常范围时进行约束。该方法"在保持能力基准测试性能的同时,将有害响应率降低了约 50%"。
启示
研究表明,模型人格既需要精心构建,也需要持续稳定。随着系统变得更加强大,与预期行为模式保持对齐将愈发重要。
研究演示已通过与 Neuronpedia 的合作开放,用户可在对话过程中实时观察激活模式。