不连贯性 - 财报，业绩电话会，研报，新闻

不连贯性

搜索文档

36氪· 2026-02-09 14:50

文章核心观点 - Anthropic的研究论文《The Hot Mess of AI》揭示了当前以Transformer为基础的自回归大模型在追求AGI（通用人工智能）过程中存在一个根本性缺陷：随着模型规模增大和任务链条变长，模型错误的主要来源从“偏差”（系统性错误）转向了“方差”（随机性错误），导致其行为不可预测且混乱，这被称为“不连贯性”问题[1][7][19][30] - 该问题被归结为自回归模型作为“动力系统”的本质与执行长程任务所需的“优化器”行为之间存在根本冲突，现有技术路径难以根除这种内在的混乱，对当前依赖扩大模型规模的Scaling Law路线构成了直接冲击[20][23][24][40] - 尽管前景严峻，但研究也指出了潜在的缓解路径，包括集成方法、系统2推理以及超越Token的新范式，为行业未来的研发方向提供了线索[33][36][37] 当前AI Agent的困境与核心问题 - 应用层AI Agent在处理真实世界长程任务时不可靠，严重依赖“Skill”等人为辅助[1] - 困境主要源于两个原因：一是模型无法吃透复杂上下文（“上下文的黑洞”），二是随着规划步长增加，模型表现急剧恶化（“长期规划的崩塌”）[1] - 自回归模型（如Transformer）存在“阿喀琉斯之踵”，其核心问题在于长程任务中的错误性质发生了改变[1][7] 研究发现的实证证据：能力与混乱并存 - 研究通过“偏差-方差分解”量化模型错误来源，引入核心指标“不连贯性”，即总错误中由“方差”导致的比例，用以区分模型是因“笨”（高偏差）还是因“疯”（高方差）而犯错[8][9][13] - 实验发现，任务越长，AI越“疯”：在GPQA（科学问答）和SWE-bench（编程）任务中，随着推理链或行动步骤增加，不连贯性直线上升，错误来源从偏差主导变为方差主导[13][14] - 模型规模越大，在最困难任务上的不连贯性反而上升：例如Qwen3模型家族，在简单任务上规模越大越稳定，但在最难任务组中，随着参数量增加，偏差下降快（更聪明），但方差下降慢（更混乱），导致错误更多由随机选择引起[15][17] - 研究发现，推理长度增加带来的混乱（熵增），需要模型规模扩大好几个数量级才能抵消，导致Scaling Law在此失效，单纯扩大模型规模性价比极低且无法消除内在随机性[17][19] 问题的根源：自回归架构的原罪 - 问题的本质是“动力系统”与“优化器”的冲突：自回归模型是一个可以发散、循环的动力系统，而执行目标导向任务的Agent需要是一个行为被目标严格锁定的优化器[20][23] - 数学上，在所有动力系统的集合中，能表现得像固定损失函数优化器的子集，其测度为零，这意味着让自回归模型干优化器的活儿可能性无限接近于零[23] - 即使专门为成为优化器而训练自回归模型，模型规模的扩大也只能提升认知准确性（降低偏差），而无法让行动更稳定（降低方差）[23] - 当模型规模变大时，其内部状态空间呈指数级膨胀，可能性增多，每一步预测的微小随机扰动在长链条推理中被不断放大，导致混乱[24] - 现有的后训练技术（如RLHF/思维链）虽然提升了准确率，但并未改变底层动力学特征，未能降低最困难任务上的不连贯性[27] - 方差具有累积性，长程任务中第一步的微小走神，经过多步推理放大后可能导致结果南辕北辙[29] 对行业未来发展的影响与预测 - 此问题是自回归架构的“内源性疾病”，无论投入多少数据和算力都难以根除，直接冲击了当前通往AGI的路线图[30] - 未来的AI失败图景可能更像“工业事故”而非有预谋的背叛：模型平时完美，一旦出错将是完全不可预测、不可复现的“发疯”，源于混乱而非恶意[30][31][32] - 这警示行业，AGI的终极挑战或许不在于让模型变得更聪明，而在于确保其在漫长的思考和行动中能始终保持连贯和清醒[40] 论文指出的潜在解决方案与研究方向 - **集成方法**：让模型对同一问题多次推理并集成结果，是降低不连贯性最有效的手段，方差随集成样本数量增加以1/样本数的速度下降，这解释了当前Coding Agent通过运行-测试-修正的ReAct循环实现稳定表现的原因[33][34] - **系统2推理**：增加推理预算（如进行大量思维链推导）能稍微降低不连贯性，对应了OpenAI o1的路线，但需注意模型自发长考时方差可能飙升，因此需要结构化的思维过程或更强的纠错模式[36] - **超越Token的新范式**：呼吁在更高抽象层级进行规划，例如基于高维概念或目标表征（如Meta提出的Large Concept Model或世界模型），而非基于容易出错的离散Token，以在长程任务中保持连贯[37][38][39] - **工程绕行方案**：通过沙箱环境让模型“发疯”，严格控制实际产生效果的输出，例如Anthropic在Claude Agent SDK中采用的方法[35]

Artificial General Intelligence (AGI)

自回归模型

偏差 - 方差分解

不连贯性

Artificial Intelligence

Qwen3

Artificial General Intelligence (AGI)

自回归模型

偏差 - 方差分解

不连贯性

Artificial Intelligence

Qwen3