Skip to content

压力测试模型规范揭示语言模型间的性格差异

概述

来自 Anthropic Fellows 项目的研究人员与 Thinking Machines Lab 合作,开展了一项分析,研究领先 AI 模型如何处理相互冲突的原则。他们生成了超过 30 万条用户查询,强制模型在其规范中嵌入的竞争价值观之间进行优先级排序。

关键发现

该研究识别出了 Anthropic、OpenAI、Google DeepMind 和 xAI 前沿模型的不同行为模式。这项工作揭示了"模型规范中数千个直接矛盾或解释性歧义的案例",突显了在解决竞争原则方面存在的差距。

核心问题

模型规范作为训练期间建立的行为准则,列出了诸如有用性、善意假设和安全边界等原则。这些规范通常运行顺畅,但当原则发生冲突时就会出现紧张关系——例如,平衡商业效益与社会公平。

研究人员指出,"当规范没有为这些冲突提供明确指导时,来自 Constitutional AI 或审慎对齐(deliberative alignment)等方法的训练信号往往会变得混乱或模糊。"这导致了模型行为的分化。

方法论

团队利用了先前识别出的 3307 个细粒度价值观分类体系,这些价值观是 Claude 模型所表达的。他们提出了需要明确在价值观对之间进行权衡的场景,测量了十二个前沿模型之间的分歧。

影响

研究结果表明,模型规范需要进一步完善以解决内在的矛盾和歧义,这可能会提高对齐训练的有效性。

作者: Jifan Zhang, Henry Sleight, Andi Peng, John Schulman, Esin Durmus
日期: 2025 年 10 月 24 日
资源: 论文数据集