强化学习的 Scaling Law
搜索文档
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 11:09
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 见证奇点来临 "2023 年初,有巨头说全世界只会有几个大模型,这就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机。" 文 丨 程曼祺 今年 11 月,清华大学、开源组织 OpenBMB 与面壁智能的联合研究登上《自然·机器学习》封面—— Densing Laws of LLMS(《大模型的密度法则》:每 3.5 个月,模型的能力密度翻一倍。 此图描述了 2023 年 4 月之后,主要开源模型的能力密度的变化。能力密度是衡量单位参数 / 算力下,模型 能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化,o1、R1 等后训练强化学习对能力 密度的提升尚未体现在指标里。 ChatGPT 出现之后(图中 2023 年 1 月的时间线),能力密度上升的斜率变陡。 过去几年,大模型演进的明线是 "规模法则"(Scaling Law)带来的能力跃迁。大模型在编程、生 图、设计等能力上,达到甚至超越了人类水平。另一方面,模型性能竞赛也带来巨大的资源消耗,连 OpenAI 也因资源不足出现分歧。 密度法则,就是关注如何用更少计算和数据资源,更高 ...