不连贯性
搜索文档
懂了很多道理,AI 依然要发疯
36氪· 2026-02-09 14:50
文章核心观点 - Anthropic的研究论文《The Hot Mess of AI》揭示了当前以Transformer为基础的自回归大模型在追求AGI(通用人工智能)过程中存在一个根本性缺陷:随着模型规模增大和任务链条变长,模型错误的主要来源从“偏差”(系统性错误)转向了“方差”(随机性错误),导致其行为不可预测且混乱,这被称为“不连贯性”问题[1][7][19][30] - 该问题被归结为自回归模型作为“动力系统”的本质与执行长程任务所需的“优化器”行为之间存在根本冲突,现有技术路径难以根除这种内在的混乱,对当前依赖扩大模型规模的Scaling Law路线构成了直接冲击[20][23][24][40] - 尽管前景严峻,但研究也指出了潜在的缓解路径,包括集成方法、系统2推理以及超越Token的新范式,为行业未来的研发方向提供了线索[33][36][37] 当前AI Agent的困境与核心问题 - 应用层AI Agent在处理真实世界长程任务时不可靠,严重依赖“Skill”等人为辅助[1] - 困境主要源于两个原因:一是模型无法吃透复杂上下文(“上下文的黑洞”),二是随着规划步长增加,模型表现急剧恶化(“长期规划的崩塌”)[1] - 自回归模型(如Transformer)存在“阿喀琉斯之踵”,其核心问题在于长程任务中的错误性质发生了改变[1][7] 研究发现的实证证据:能力与混乱并存 - 研究通过“偏差-方差分解”量化模型错误来源,引入核心指标“不连贯性”,即总错误中由“方差”导致的比例,用以区分模型是因“笨”(高偏差)还是因“疯”(高方差)而犯错[8][9][13] - 实验发现,任务越长,AI越“疯”:在GPQA(科学问答)和SWE-bench(编程)任务中,随着推理链或行动步骤增加,不连贯性直线上升,错误来源从偏差主导变为方差主导[13][14] - 模型规模越大,在最困难任务上的不连贯性反而上升:例如Qwen3模型家族,在简单任务上规模越大越稳定,但在最难任务组中,随着参数量增加,偏差下降快(更聪明),但方差下降慢(更混乱),导致错误更多由随机选择引起[15][17] - 研究发现,推理长度增加带来的混乱(熵增),需要模型规模扩大好几个数量级才能抵消,导致Scaling Law在此失效,单纯扩大模型规模性价比极低且无法消除内在随机性[17][19] 问题的根源:自回归架构的原罪 - 问题的本质是“动力系统”与“优化器”的冲突:自回归模型是一个可以发散、循环的动力系统,而执行目标导向任务的Agent需要是一个行为被目标严格锁定的优化器[20][23] - 数学上,在所有动力系统的集合中,能表现得像固定损失函数优化器的子集,其测度为零,这意味着让自回归模型干优化器的活儿可能性无限接近于零[23] - 即使专门为成为优化器而训练自回归模型,模型规模的扩大也只能提升认知准确性(降低偏差),而无法让行动更稳定(降低方差)[23] - 当模型规模变大时,其内部状态空间呈指数级膨胀,可能性增多,每一步预测的微小随机扰动在长链条推理中被不断放大,导致混乱[24] - 现有的后训练技术(如RLHF/思维链)虽然提升了准确率,但并未改变底层动力学特征,未能降低最困难任务上的不连贯性[27] - 方差具有累积性,长程任务中第一步的微小走神,经过多步推理放大后可能导致结果南辕北辙[29] 对行业未来发展的影响与预测 - 此问题是自回归架构的“内源性疾病”,无论投入多少数据和算力都难以根除,直接冲击了当前通往AGI的路线图[30] - 未来的AI失败图景可能更像“工业事故”而非有预谋的背叛:模型平时完美,一旦出错将是完全不可预测、不可复现的“发疯”,源于混乱而非恶意[30][31][32] - 这警示行业,AGI的终极挑战或许不在于让模型变得更聪明,而在于确保其在漫长的思考和行动中能始终保持连贯和清醒[40] 论文指出的潜在解决方案与研究方向 - **集成方法**:让模型对同一问题多次推理并集成结果,是降低不连贯性最有效的手段,方差随集成样本数量增加以1/样本数的速度下降,这解释了当前Coding Agent通过运行-测试-修正的ReAct循环实现稳定表现的原因[33][34] - **系统2推理**:增加推理预算(如进行大量思维链推导)能稍微降低不连贯性,对应了OpenAI o1的路线,但需注意模型自发长考时方差可能飙升,因此需要结构化的思维过程或更强的纠错模式[36] - **超越Token的新范式**:呼吁在更高抽象层级进行规划,例如基于高维概念或目标表征(如Meta提出的Large Concept Model或世界模型),而非基于容易出错的离散Token,以在长程任务中保持连贯[37][38][39] - **工程绕行方案**:通过沙箱环境让模型“发疯”,严格控制实际产生效果的输出,例如Anthropic在Claude Agent SDK中采用的方法[35]