文章核心观点 - 过去十年AI领域的“算力驱动进步”范式正面临收益递减的挑战,单纯依赖扩大模型规模和训练算力(Scaling)的路径可能正在走向终结 [1][4] - 未来AI的突破将更多依赖于算法优化、架构创新、数据质量提升以及推理阶段的计算放大等多元化创新方向,而非仅仅堆砌算力 [5][24] 小模型的崛起与Scaling的局限性 - 尽管扩展计算能力在过去十年解锁了模型规模和性能,但更大的模型并不总能带来更好的性能,近年来出现了大量小模型超越大模型的案例 [8] - 模型参数量从早期Inception的2300万暴增至Qwen3-235B的2350亿,但额外参数与泛化能力的关系不明确,且模型存在大量权重冗余 [14] - Scaling Law主要被验证的是对预训练测试损失的预测,但在预测真实下游任务表现时往往混乱且不一致,其结论建立在不到百个样本之上,统计支撑脆弱 [21] - Scaling Law在短期受控环境下对规划有一定价值,但长期来看频繁失效,过度依赖它的公司可能正在低估其他创新方向的价值 [22] 影响算力回报率的关键因素 - 数据质量:在更高质量数据上训练的模型可以减少对计算资源的依赖,改进训练语料库(如去重、修剪)可以弥补模型规模的不足 [16] - 算法技术:指令微调、模型蒸馏、思维链推理、检索增强生成等新技术弥补了对大量权重或长时间训练的需求,用相同资源做更多事情 [17] - 架构设计:架构在决定单位计算量下的性能回报率方面作用巨大,新架构的引入可以根本改变计算量与性能的关系,并使现有Scaling Law过时 [18] 深度神经网络的学习低效性 - 增大模型规模是学习长尾分布的一种成本极高的方式,深度神经网络的学习效率极低,需要大量算力和时间来学习罕见特征 [14] - 训练基于平均误差最小化,导致低频特征的信号在批量更新中被稀释,而现实世界中大多数属性是低频的,训练的大部分算力被消耗在记忆长尾数据上 [14][15] 未来前进方向与新的优化空间 - 创新前沿将不再只押注算力,而是来自对优化空间的根本性重塑,即范式层面的转变 [24] - 推理阶段计算放大:通过在推理时投入更多算力(如搜索、工具调用、多智能体协作),可能带来数倍甚至一个数量级的性能提升,而成本远低于重新预训练 [25] - 数据空间可塑化:随着合成数据成本下降,可以有意识地生成和引导关键但稀少的数据分布,动摇了机器学习中关于独立同分布样本的基础假设 [27] - 系统交互核心化:智能系统的核心正从“更强的模型”转向“更会与世界互动的系统”,交互方式、界面设计及多组件协同成为决定智能上限的重要因素 [27] - 架构革新需求:只要仍以Transformer为核心架构,继续扩大计算规模就意义有限,下一次真正的跃迁需要一种全新的架构 [28] - 能耗问题持续:即便模型更小更高效,AI被部署到数十亿用户时,总体能耗仍可能持续上升,真正的能耗大头往往在模型上线后的大规模服务阶段 [28]
前谷歌研究员发文:算力崇拜时代该结束了
机器之心·2026-01-10 15:00