大模型每百天性能翻倍,清华团队“密度法则”登上Nature子刊
36氪·2025-11-20 16:48
2020 年以来,OpenAI 提出的 Scaling Law 引领着大模型的快速发展 —— 模型参数和训练数据规模越大,产生的智能能力越强。然而进入 2025 年,训练 开销不断扩增这一路径面临严峻的可持续发展问题。OpenAI 前首席科学家 Ilya Sutskever 在公开演讲中指出,随着互联网公开可获取的语料接近枯竭,大 模型预训练将无法持续("Pre-training as we know it will end")。因此,大多研究者开始探索大模型的新的发展路径。 清华大学研究成果大模型"密度法则"(Densing Law) 给出了新的观察视角。近日,该成果正式发表于 Nature 子刊《自然·机器智能》(Nature Machine Intelligence),为理解大模型发展规律提供了新的维度。密度法则揭示了大语言模型的最大能力密度随时间呈指数级增长,2023 年 2 月至 2025 年 4 月,约 每 3.5 个月翻一倍,这意味着每隔 3.5 个月,即可用一半参数量的模型实现当前最优性能。 论文链接:https://www.nature.com/articles/s42256-025-011 ...