AI 的一团糟：错位如何随模型智能和任务复杂度扩展?

作者: Alexander Hägele¹², Aryo Pradipta Gema¹³, Henry Sleight⁴, Ethan Perez⁵, Jascha Sohl-Dickstein⁵

¹Anthropic Fellows Program ²EPFL ³爱丁堡大学 ⁴Constellation ⁵Anthropic

发表时间: 2026年2月

研究背景: 作为2025年夏季首届 Anthropic Fellows Program 的一部分完成。

摘要

作者将前沿推理模型的误差分解为偏差和方差两个组成部分。核心发现："随着任务变难、推理链变长，模型失败越来越多地由不连贯性主导，而非系统性错位。"

引言

论文考察了高级 AI 系统的两种对比性失败模式：对错位目标的连贯追求 vs 不连贯、自我破坏的行为。它建立在先前的"hot mess theory"研究基础上，该研究发现智能实体被主观判定为连贯性较低。核心研究问题是：随着智能和任务难度增加，模型失败是否越来越类似于非系统性错误。

测量不连贯性：偏差-方差分解

该框架使用经典分解：

误差 = 偏差² + 方差
偏差代表系统性、一致性错误
方差捕获不可预测、多变的错误

误差不连贯性计算为：方差 / 误差，取值范围为 0（完全系统性）到 1（完全随机）。

关键发现

发现1：更长推理增加不连贯性

在所有测试任务和模型中，扩展的推理序列产生越来越不连贯的错误，可通过推理 token、智能体动作或优化器步数测量。

发现2：智能与连贯性之间的复杂关系

结果因上下文而异：

合成任务显示模型规模增大时不连贯性增加
专家调查表明更大模型行为更不连贯
基准测试表现不一——简单任务中更大模型显示更连贯的错误，而最难任务显示不连贯性不变或增加

发现3：自然过度思考主导推理预算

自发进行更长推理的模型显示出剧烈的不连贯性峰值，相比之下，刻意增加推理分配仅产生适度的连贯性改善。

发现4：集成降低不连贯性

聚合多个样本可减少方差，产生更连贯的行为，尽管对不可逆的现实世界任务存在实际限制。

为什么预期不连贯性？

论文认为大型 Transformer 模型作为动力系统而非优化器运行。"约束通用动力系统作为连贯优化器极其困难。"训练模型进行优化变得越来越具挑战性，且无法保证扩展收益。

合成优化器实验

研究人员训练 Transformer 预测最速下降优化步骤：

更大模型比方差更快减少偏差
不连贯性随轨迹长度增长
模型在学习可靠追求之前先学会正确目标

对 AI 安全的启示

方差在扩展任务中主导——困难问题主要显示不连贯性失败
规模不保证连贯错误——更大模型提高精度但不减少不连贯性
奖励黑客变得相对重要——如果 AI 表现为一团糟而非连贯的错误优化器，训练时目标规范更重要
框架局限性——可靠测量需要明确定义的目标，限制了开放式或隐藏目标的评估

结论

使用偏差-方差分析，研究人员发现更长推理一致地增加误差不连贯性，且智能不保证连贯失败。他们认为这些发现应为 AI 风险讨论和安全研究优先级提供信息。

致谢

团队感谢 Andrew Saxe、Brian Cheung、Kit Frasier-Taliente、Igor Shilov、Stewart Slocum、Aidan Ewart、David Duvenaud 和 Tom Adamczewski 的贡献。

AI 的一团糟：错位如何随模型智能和任务复杂度扩展? ​

摘要 ​

引言 ​

测量不连贯性：偏差-方差分解 ​

关键发现 ​

发现1：更长推理增加不连贯性 ​

发现2：智能与连贯性之间的复杂关系 ​

发现3：自然过度思考主导推理预算 ​

发现4：集成降低不连贯性 ​

为什么预期不连贯性？ ​

合成优化器实验 ​

对 AI 安全的启示 ​

结论 ​

致谢 ​