中国大模型团队登Nature封面,刘知远语出惊人:期待明年“用AI造AI”
36氪·2025-12-25 09:24

大模型发展规律:从规模法则到密度法则 - 过去半个世纪,全球科技产业遵循摩尔定律,即芯片性能每18个月翻一番[1] - 安迪-比尔定律指出,硬件性能提升的红利会被软件复杂度的增加所抵消,驱动了PC与互联网时代的产业进化[1][2] - 在生成式人工智能时代,Scaling Law(规模法则)主导下,模型参数指数级膨胀,软件对算力的索取远超摩尔定律的供给速度,AI发展的边际成本急剧上升[2] - 当硬件供给遭遇能源、数据等天花板时,旧的“安迪比尔”式增长范式开始失效[3] - 产业需要一场逆向革命,大模型需要通过极致的算法与工程化重构,在现有硬件上爆发更强的能力[4] - 清华大学刘知远团队在《自然·机器智能》发表论文,正式提出大模型的“密度法则”[5] - 基于对51个主流大模型的严谨回测,论文揭示从2023年到2025年,大模型的智能密度以每3.5个月翻倍的速度狂飙[5] - 这是一条比摩尔定律陡峭5倍的进化曲线,意味着每100天,就可以用一半参数量实现当前最优模型相当的性能,每100天成本减半,一年后成本就可能降至原来的十分之一[6] - 密度法则与规模法则相辅相成,是硬币的两面,密度法则通过在模型架构、数据治理、学习方法等方面的持续技术创新,找到一条更加“陡峭”的“规模法则”曲线[16][17] - 密度法则并非自然规律,而是人类社会在该科技领域的一种“自我实现”:投入越多,密度增长越快,2023年之前周期接近五个月,2023年之后则缩短到三个多月[14] 中国大模型公司的技术创新路径 - 2025年,中国大模型公司成为通过架构创新提升模型效率的最坚定实践者[5] - DeepSeek V3通过细粒度混合专家架构以1/10算力成本对标顶尖模型[5][18] - Kimi等团队在稀疏注意力机制上取得突破[5] - 清华大学刘知远及其面壁智能团队发布的MiniCPM系列模型,仅用约1/10的参数规模,即可承载对标云端大模型的智能水平,成为端侧高效AI的案例[5] - 追求效率有中国算力有限的国情因素,中国企业正通过技术创新绕过“算力墙”[11] - 2025年是模型架构创新的大年,主要方向包括:以DeepSeek V3为代表的细粒度混合专家架构走向成熟;稀疏注意力机制大行其道;复兴循环神经网络思想,与Transformer混合架构[20] - 大规模强化学习的应用取得巨大飞跃,尤其在数学和代码领域,模型通过自我探索持续提升能力,解决了数据枯竭的问题[19][20] - 原生训练的高密度模型相比剪枝、量化等方法更具优势,剪枝、蒸馏、量化都会降低模型密度,要把密度做高必须从头构建一套复杂的原生技术体系[28] 密度法则对产业竞争格局的影响 - 3.5个月的迭代周期意味着,任何一个投入巨资训练的大模型,如果不能在3到6个月内通过商业化收回成本,这种模式就很难持续[6][29] - 云端API服务的竞争会极其惨烈,最终可能只会剩下几家拥有海量用户和强大技术迭代能力的头部厂商[29] - 对于创业公司而言,机会可能在于“端侧智能”,端侧场景的约束条件使得技术优势成为唯一的竞争点,大厂的“钞能力”难以发挥[29] - 端侧智能会先从智能座舱等对功耗不那么敏感的场景开始,最终AGI时代一定会有属于它自己的智能终端形态[30] - 虽然训练模型的厂商会收敛,但推理算力需求会爆炸式增长[33] - 快速发展肯定伴随局部泡沫,但整体上正进入智能革命时代,如果AI也走50个周期,按现在的速度,大概到2030-2035年就能实现全球普惠的AGI[31][32] 技术前沿与未来展望 - 谷歌发布的Gemini 3是一个非常重要的里程碑,它在图像生成中对文字的控制达到了前所未有的高度,表明其模型的可控性和对世界的理解能力达到了新水平[22] - 密度法则是一个普遍规律,虽然不同领域的倍增周期可能不同,但只要是通用的、遵循Scaling Law的模型,未来也一定会遵循Densing Law[21] - 端侧设备的发展受限于多个因素:尚未形成好的端侧应用场景;端侧技术生态尚未形成;AGI发展还没收敛,产品设计上还没法完全规避错误[23][24] - 软硬协同面临挑战,硬件厂商受摩尔定律18个月周期的影响,架构调整更审慎,而模型每3个月就进化一次,短期内是软件适配硬件,长期看硬件会针对稳定的新技术做优化[26][27] - 最期待的创新是“用AI制造AI”,明年一个重要节点是自主学习,未来的生产标志就是“用AI制造AI”,这将是一个指数级加速的过程[35]

中国大模型团队登Nature封面,刘知远语出惊人:期待明年“用AI造AI” - Reportify