AI 的一团糟:错位如何随模型智能和任务复杂度扩展?
作者: Alexander Hägele¹², Aryo Pradipta Gema¹³, Henry Sleight⁴, Ethan Perez⁵, Jascha Sohl-Dickstein⁵
¹Anthropic Fellows Program ²EPFL ³爱丁堡大学 ⁴Constellation ⁵Anthropic
发表时间: 2026年2月
研究背景: 作为2025年夏季首届 Anthropic Fellows Program 的一部分完成。
摘要
作者将前沿推理模型的误差分解为偏差和方差两个组成部分。核心发现:"随着任务变难、推理链变长,模型失败越来越多地由不连贯性主导,而非系统性错位。"
引言
论文考察了高级 AI 系统的两种对比性失败模式:对错位目标的连贯追求 vs 不连贯、自我破坏的行为。它建立在先前的"hot mess theory"研究基础上,该研究发现智能实体被主观判定为连贯性较低。核心研究问题是:随着智能和任务难度增加,模型失败是否越来越类似于非系统性错误。
测量不连贯性:偏差-方差分解
该框架使用经典分解:
- 误差 = 偏差² + 方差
- 偏差代表系统性、一致性错误
- 方差捕获不可预测、多变的错误
误差不连贯性计算为:方差 / 误差,取值范围为 0(完全系统性)到 1(完全随机)。
关键发现
发现1:更长推理增加不连贯性
在所有测试任务和模型中,扩展的推理序列产生越来越不连贯的错误,可通过推理 token、智能体动作或优化器步数测量。
发现2:智能与连贯性之间的复杂关系
结果因上下文而异:
- 合成任务显示模型规模增大时不连贯性增加
- 专家调查表明更大模型行为更不连贯
- 基准测试表现不一——简单任务中更大模型显示更连贯的错误,而最难任务显示不连贯性不变或增加
发现3:自然过度思考主导推理预算
自发进行更长推理的模型显示出剧烈的不连贯性峰值,相比之下,刻意增加推理分配仅产生适度的连贯性改善。
发现4:集成降低不连贯性
聚合多个样本可减少方差,产生更连贯的行为,尽管对不可逆的现实世界任务存在实际限制。
为什么预期不连贯性?
论文认为大型 Transformer 模型作为动力系统而非优化器运行。"约束通用动力系统作为连贯优化器极其困难。"训练模型进行优化变得越来越具挑战性,且无法保证扩展收益。
合成优化器实验
研究人员训练 Transformer 预测最速下降优化步骤:
- 更大模型比方差更快减少偏差
- 不连贯性随轨迹长度增长
- 模型在学习可靠追求之前先学会正确目标
对 AI 安全的启示
- 方差在扩展任务中主导——困难问题主要显示不连贯性失败
- 规模不保证连贯错误——更大模型提高精度但不减少不连贯性
- 奖励黑客变得相对重要——如果 AI 表现为一团糟而非连贯的错误优化器,训练时目标规范更重要
- 框架局限性——可靠测量需要明确定义的目标,限制了开放式或隐藏目标的评估
结论
使用偏差-方差分析,研究人员发现更长推理一致地增加误差不连贯性,且智能不保证连贯失败。他们认为这些发现应为 AI 风险讨论和安全研究优先级提供信息。
致谢
团队感谢 Andrew Saxe、Brian Cheung、Kit Frasier-Taliente、Igor Shilov、Stewart Slocum、Aidan Ewart、David Duvenaud 和 Tom Adamczewski 的贡献。