压力测试模型规范揭示语言模型间的性格差异

概述

来自 Anthropic Fellows 项目的研究人员与 Thinking Machines Lab 合作，开展了一项分析，研究领先 AI 模型如何处理相互冲突的原则。他们生成了超过 30 万条用户查询，强制模型在其规范中嵌入的竞争价值观之间进行优先级排序。

该研究识别出了 Anthropic、OpenAI、Google DeepMind 和 xAI 前沿模型的不同行为模式。这项工作揭示了"模型规范中数千个直接矛盾或解释性歧义的案例"，突显了在解决竞争原则方面存在的差距。

模型规范作为训练期间建立的行为准则，列出了诸如有用性、善意假设和安全边界等原则。这些规范通常运行顺畅，但当原则发生冲突时就会出现紧张关系——例如，平衡商业效益与社会公平。

研究人员指出，"当规范没有为这些冲突提供明确指导时，来自 Constitutional AI 或审慎对齐（deliberative alignment）等方法的训练信号往往会变得混乱或模糊。"这导致了模型行为的分化。

团队利用了先前识别出的 3307 个细粒度价值观分类体系，这些价值观是 Claude 模型所表达的。他们提出了需要明确在价值观对之间进行权衡的场景，测量了十二个前沿模型之间的分歧。

研究结果表明，模型规范需要进一步完善以解决内在的矛盾和歧义，这可能会提高对齐训练的有效性。

作者： Jifan Zhang, Henry Sleight, Andi Peng, John Schulman, Esin Durmus
日期： 2025 年 10 月 24 日
资源： 论文，数据集