规模不变型算法 - 财报，业绩电话会，研报，新闻

规模不变型算法

搜索文档

机器之心· 2025-12-11 10:47

文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动，但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现，算法进步在过去十年贡献了超过4个数量级的有效计算量提升，而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论：大多数算法创新带来的效率提升有限且与规模无关，而少数强烈依赖规模的创新（如LSTM到Transformer，Kaplan到Chinchilla）贡献了绝大部分的效率提升，且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍，理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍（相对于LSTM模型）的性能提升中，从LSTM转向Kaplan Transformer模型贡献了846倍的提升，Chinchilla训练策略贡献了近10倍的提升，这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍，在推算到2025年计算能力极限（2 × 10²³ FLOPs）时，这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升，提升倍数极不均匀，主要集中在少数几项改进上（如Adam优化器、pre-RMSNorm带来约2倍提升）[4][11] - 算法进步呈现断裂或不连续的模式：多年小幅改进之后，会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升，往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新：从LSTM到Transformer，以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性，并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍，切换到Retro Transformer的效率提升为4.69倍，这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的，要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长，算法进步的速率可能更多受算力扩张推动，而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照，Transformer系列（尤其是更大模型）会显得算法进步是指数增长的（论文测到一年增长率大约63%）；但以Transformer自身为参照，随着规模变大，算法进步幅度很小（只比以前好约2倍）[24][25] - 换个对照组，算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]