Workflow
密度法则
icon
搜索文档
中国大模型团队登Nature封面,刘知远语出惊人:期待明年“用AI造AI”
36氪· 2025-12-25 09:24
大模型发展规律:从规模法则到密度法则 - 过去半个世纪,全球科技产业遵循摩尔定律,即芯片性能每18个月翻一番[1] - 安迪-比尔定律指出,硬件性能提升的红利会被软件复杂度的增加所抵消,驱动了PC与互联网时代的产业进化[1][2] - 在生成式人工智能时代,Scaling Law(规模法则)主导下,模型参数指数级膨胀,软件对算力的索取远超摩尔定律的供给速度,AI发展的边际成本急剧上升[2] - 当硬件供给遭遇能源、数据等天花板时,旧的“安迪比尔”式增长范式开始失效[3] - 产业需要一场逆向革命,大模型需要通过极致的算法与工程化重构,在现有硬件上爆发更强的能力[4] - 清华大学刘知远团队在《自然·机器智能》发表论文,正式提出大模型的“密度法则”[5] - 基于对51个主流大模型的严谨回测,论文揭示从2023年到2025年,大模型的智能密度以每3.5个月翻倍的速度狂飙[5] - 这是一条比摩尔定律陡峭5倍的进化曲线,意味着每100天,就可以用一半参数量实现当前最优模型相当的性能,每100天成本减半,一年后成本就可能降至原来的十分之一[6] - 密度法则与规模法则相辅相成,是硬币的两面,密度法则通过在模型架构、数据治理、学习方法等方面的持续技术创新,找到一条更加“陡峭”的“规模法则”曲线[16][17] - 密度法则并非自然规律,而是人类社会在该科技领域的一种“自我实现”:投入越多,密度增长越快,2023年之前周期接近五个月,2023年之后则缩短到三个多月[14] 中国大模型公司的技术创新路径 - 2025年,中国大模型公司成为通过架构创新提升模型效率的最坚定实践者[5] - DeepSeek V3通过细粒度混合专家架构以1/10算力成本对标顶尖模型[5][18] - Kimi等团队在稀疏注意力机制上取得突破[5] - 清华大学刘知远及其面壁智能团队发布的MiniCPM系列模型,仅用约1/10的参数规模,即可承载对标云端大模型的智能水平,成为端侧高效AI的案例[5] - 追求效率有中国算力有限的国情因素,中国企业正通过技术创新绕过“算力墙”[11] - 2025年是模型架构创新的大年,主要方向包括:以DeepSeek V3为代表的细粒度混合专家架构走向成熟;稀疏注意力机制大行其道;复兴循环神经网络思想,与Transformer混合架构[20] - 大规模强化学习的应用取得巨大飞跃,尤其在数学和代码领域,模型通过自我探索持续提升能力,解决了数据枯竭的问题[19][20] - 原生训练的高密度模型相比剪枝、量化等方法更具优势,剪枝、蒸馏、量化都会降低模型密度,要把密度做高必须从头构建一套复杂的原生技术体系[28] 密度法则对产业竞争格局的影响 - 3.5个月的迭代周期意味着,任何一个投入巨资训练的大模型,如果不能在3到6个月内通过商业化收回成本,这种模式就很难持续[6][29] - 云端API服务的竞争会极其惨烈,最终可能只会剩下几家拥有海量用户和强大技术迭代能力的头部厂商[29] - 对于创业公司而言,机会可能在于“端侧智能”,端侧场景的约束条件使得技术优势成为唯一的竞争点,大厂的“钞能力”难以发挥[29] - 端侧智能会先从智能座舱等对功耗不那么敏感的场景开始,最终AGI时代一定会有属于它自己的智能终端形态[30] - 虽然训练模型的厂商会收敛,但推理算力需求会爆炸式增长[33] - 快速发展肯定伴随局部泡沫,但整体上正进入智能革命时代,如果AI也走50个周期,按现在的速度,大概到2030-2035年就能实现全球普惠的AGI[31][32] 技术前沿与未来展望 - 谷歌发布的Gemini 3是一个非常重要的里程碑,它在图像生成中对文字的控制达到了前所未有的高度,表明其模型的可控性和对世界的理解能力达到了新水平[22] - 密度法则是一个普遍规律,虽然不同领域的倍增周期可能不同,但只要是通用的、遵循Scaling Law的模型,未来也一定会遵循Densing Law[21] - 端侧设备的发展受限于多个因素:尚未形成好的端侧应用场景;端侧技术生态尚未形成;AGI发展还没收敛,产品设计上还没法完全规避错误[23][24] - 软硬协同面临挑战,硬件厂商受摩尔定律18个月周期的影响,架构调整更审慎,而模型每3个月就进化一次,短期内是软件适配硬件,长期看硬件会针对稳定的新技术做优化[26][27] - 最期待的创新是“用AI制造AI”,明年一个重要节点是自主学习,未来的生产标志就是“用AI制造AI”,这将是一个指数级加速的过程[35]
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 19:06
文章核心观点 - 2025年生成式AI发展进入新阶段,其演进围绕认知深化、维度突破和效率重构三条核心脉络交织进行,开始定义AI进化的新范式 [1] - 单纯依赖算力和参数规模扩张的Scaling Law边际效益递减,行业正通过架构创新(如MoE、稀疏注意力)和多模态数据(尤其是视频)利用来寻求新的性能提升路径 [1][8] - 大模型行业的竞争格局呈现中美、开源与闭源“双核驱动”的态势,商业化成功的关键在于构建算力、能力、生态三层“护城河”,并聚焦于高价值的专业用户(ToP)市场 [3][7][10] - 智能体(Agent)和具身智能(Embodied AI)是重要的演进方向,但面临商业化、技术成熟度及软硬件协同的挑战,端云协同与模型“能力密度”提升是未来发展核心 [3][11][17][19] - 中国AI产业有望通过开源生态和专注于提升模型效率(如“密度法则”)的路径,在算力受限环境下实现突围 [3][20] 2025年大模型进化三大脉络 - **认知深化:从“直觉”到“逻辑”**:一线模型通过强化学习(RL)和更长的中间推理,从快速的模式匹配(System 1)向多步深度推理(System 2)演进 [1] - **维度突破:从“语言”到“物理空间”**:AI演进逻辑从理解语言符号进化到理解物理世界本身,“空间智能”成为关键,视频数据因其蕴含的丰富时空信息成为迈向物理世界的关键桥梁 [1][2] - **效率重构:从“暴力美学”到“性价比”**:产业落地回归极致的算力效能比,采用混合专家模型(MoE)、稀疏注意力等架构革新使模型变“轻”,以解决无限上下文带来的算力挑战 [1] Scaling Law与模型迭代新范式 - **Scaling Law面临瓶颈**:在大语言模型领域,由于互联网文本数据枯竭,单纯堆算力、堆参数的边际效益在递减 [8] - **多模态数据成为新红利**:视频数据的量级是互联网文本数据的百倍、千倍乃至万倍,从视频中学习(Learning from Video)成为大模型新的性能提升机会 [8] - **“密度法则”成为新方向**:类似于芯片摩尔定律,行业追求在单位参数内提升“智能密度”,通过技术创新实现模型能力压缩,预计每100天模型密度变得更高 [3][9] - **端云协同成为未来格局**:未来算力格局将是云端负责规划,端侧负责执行(做事),预计到2030年,端侧设备可承载GPT-5级别的模型能力 [3][18] 大模型公司的竞争“护城河” - **三层金字塔结构**:最底层是算力的获取、组织和有效利用;中间层是维持SOTA水平的模型能力;最上层是触达用户、获得数据反馈的生态 [9][10] - **“双核驱动”格局已定**:开源与闭源大模型、中国与美国的企业和人才,形成双核驱动格局,2025年被视为中国大模型的破局之年 [3][7] - **赢家通吃**:大模型是一个全球留不下几家公司的赢家通吃行业 [9] 智能体(Agent)的商业化现状与瓶颈 - **从玩具到工具的挑战**:智能体商业化面临三大技术瓶颈:基础模型推理能力仍有欠缺、领域适配时的“翘翘板效应”(能力此消彼长)、模型的记忆和遗忘机制不完善 [11][12][13] - **端侧与云端智能体的区别**:端侧智能体需满足隐私、实时、稳定需求,并对全模态数据有感知理解与个性化服务能力;云端智能体主要处于数字世界 [13] - **商业化变现聚焦ToP市场**:在ToB(企业)和ToC(消费者)之间,面向专业型用户(ToP)的市场是目前中美AI行业变现效率最高的地带,如AI编程和创作者付费工具 [14] - **ToB与ToC市场挑战**:ToB是门槛高的“攻坚战”,落地较好的是嵌入特定环节的流程型Agent;ToC则因能力不足、缺乏新硬件载体及商业模式(Token成本高于广告收益)的悖论而尚需时日 [15] 具身智能(Embodied AI)的发展与挑战 - **产业处于早期阶段**:需要足够耐心,其发展依赖于世界模型和具身大脑等基础模型的进步 [17] - **世界模型是关键底座**:如智源的多模态世界模型Emu3.5,从视频中学习时空、因果等信息,致力于预测下一个时空状态,为具身智能构建“世界模型”底座 [2][17] - **“大小脑”协同架构**:未来机器人将采用类似“大小脑”的分工,实时感知与行动留在本地(小脑),深度思考可借助云端(大脑) [17] - **软硬结合是理想路径**:大模型AI走向物理世界,智能(软件)至关重要,但在中国环境下,硬件比重可能更重,最理想的模式是软硬结合 [19] 开源生态与中国AI的突围之路 - **开源开放推动行业进步**:人工智能行业的快速发展离不开开源开放生态,这推动了技术普惠和产业化落地 [20] - **高效模型是突围关键**:通过“密度法则”等技术提升模型效率,降低训练和使用成本,是中国在算力存在短板情况下的重要突围路径,适用于端侧和云侧 [20] - **开源模型是国运级机会**:集全国之力支持优秀开源模型,在此基础上比拼应用和生态,是中国AI发展的良好路径 [20] - **给创业者的关键建议**:在大模型难以触及的行业深处寻找机会,并建立能够跨越模型迭代周期的商业结构,避免做过于通用的产品 [21]
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 11:09
文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线,前者追求能力跃迁,后者追求效率提升,即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度,效率提升将加速端侧智能(如手机、汽车)和分布式智能的发展,最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law,是当前主要瓶颈,未来的关键方向是自主学习(Self-Learning)和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线:规模法则 (Scaling Law)**:自2018年预训练模型出现后,每隔几年模型能力就会跳跃一次,模型正变得更通用,甚至开始接近或超越人类在某些领域的能力 [12] - **暗线:密度法则 (Densing Law)**:这是大模型时代的“摩尔定律”,关注如何用更少的计算和数据资源更高效地获得智能,核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**:根据研究,大模型的能力密度(衡量单位参数/算力下模型能力的指标)每3.5个月翻一倍,自2023年1月ChatGPT出现后,这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**:核心方向包括采用稀疏化的混合专家系统以降低算力消耗,以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**:通过高质量的数据清洗、精选和合成,可以大幅提升训练效率,例如将预训练数据集精炼至不到原始容量的1/10,效果反而更好 [22][23] - **学习算法演进**:当前重点转向强化学习,但其尚未出现清晰的Scaling Law,主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**:结合芯片制程进步(摩尔定律)与模型能力密度提升,共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**:强化学习缺乏像预训练那样清晰的Scaling Law,大多数训练仅几千步,如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**:一是继续扩大RL的规模,探索开放域的激励定义;二是寻找更高效的新学习方式,提高样本效率,让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**:只要有足够数据和反馈,强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平,预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**:2023年全国端侧算力(主要是手机)是数据中心算力的12倍,信息化本质是分布式算力和信息的结构,智能化也将遵循这一路径 [9][35] - **端侧部署时间表**:结合密度法则提升和芯片路线图,预测到2030年左右,端侧可部署600亿以上参数的模型,5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**:车端模型量产速度非常快,已与多家车企合作;预计2027年成为关键节点,届时手机可实现大规模强化学习,支持个人数据训练“专属大模型助理” [32][33] - **未来形态**:智能将分布式存在,形成“智能体的互联网”,个人拥有基于终端数据持续成长的“个人大模型”,云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进:自主学习与AI造AI - **核心方向**:预训练和强化学习之后,下一个大的方法改进是自主学习,即模型能作为一个高效的学习者,根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**:第一阶段是实现自主学习;第二阶段是具备自主学习能力的AI之间的协作;第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**:最早的AGI形态可能不是面向消费者的产品,而是面向生产的系统,具备“AI造AI”的能力,即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]
从ChatGPT3年8亿周活到Higgsfield5个月1亿美元ARR:学术和资本看见了“大模型的摩尔定律 ”|DeepTalk
锦秋集· 2025-12-01 18:00
从Scaling Law到Densing Law:大模型发展范式的转变 - 行业观点认为,单纯扩大模型参数和数据的“Scaling Law”正面临瓶颈,数据接近极限,模型规模的百倍扩张难以带来真正的能力跃迁 [2] - 研究提出新的发展范式,即从“做大模型”转向“做高效模型”,核心是提升“能力密度” [3] - 该观点基于对51个主流开源大语言模型演进轨迹的分析,发现最大能力密度呈指数提升,约每3.5个月翻一番 [3] 能力密度(Capability Density)的定义与计算 - 为定量评估不同规模与架构模型的质量,研究引入了“有效参数大小”的概念,即一个标准参考模型达到目标模型同等性能所需的参数量 [10][11][12] - 能力密度被定义为有效参数大小与实际参数大小的比值(ρ = N(S_M) / N_M),该指标可用于公平比较不同架构和精度的模型 [13] - 若ρ > 1,表明模型比参考模型更“致密”,即用更少的参数实现了更强的能力 [15] Densing Law的核心发现与驱动力 - 对51个主流开源基础模型的评估显示,大语言模型的最大能力密度随时间呈指数级增长,规律被命名为Densing Law [16][17] - 具体数据为:ln(ρ_max) = At + B,增长系数A≈0.007/天,最大能力密度约每3.5个月(105天)翻一番 [18] - 密度提升的核心驱动力是预训练数据规模的爆炸式增长(从T级到15T+)以及数据质量的显著提升 [19] - 研究指出,超大模型(如Llama-3.1-405B)受限于巨大的训练成本,往往训练不足,导致其“性价比”或密度略低于同期的中等规模模型 [19] Densing Law的主要推论与行业影响 - **推论1:参数量指数级减少**:为实现相同性能,模型所需实际参数量随时间呈指数下降,大约每3.5个月减半 [21] - **推论2:推理成本指数级降低**:在同等性能下,模型参数减少直接降低了推理计算成本,粗略计算推理成本约每2.6个月减半 [22][27] - **推论3:端侧智能潜力巨大**:Densing Law(算法效率)与摩尔定律(硬件算力)结合,使得固定价格硬件上可运行的最大有效参数规模约每88天翻一番,预示高性能LLM将加速在消费级终端普及 [24] - **推论4:ChatGPT发布后密度增长加速**:ChatGPT发布后,模型密度的增长速度提升了50%(斜率从0.0048增至0.0073),主要因投资激增、开源生态繁荣及小模型普及 [25][28] - **API价格暴跌案例**:从2022年12月到2024年8月,性能相当的模型API价格从每百万token 20美元降至0.075美元,降幅达266.7倍 [27] 对模型压缩技术的警示 - 实验发现,大多数压缩模型(通过剪枝、蒸馏、量化)的能力密度实际上低于其原始模型 [30] - 原因在于压缩后的小模型往往面临训练不足的问题,而量化则会损害模型性能 [30] - 行业建议,高效压缩需确保压缩后的模型经过充分训练,以在减小规模的同时保持或提升能力密度 [30] 未来发展方向:密度最优训练 - 未来训练范式将从追求参数规模的“大”,转向追求单位参数效率的“密”,即“密度最优训练” [32] - 提升密度的关键路径包括:1) 探索更高效的非标准Transformer架构;2) 采用复杂的数据预处理与合成技术提升数据质量;3) 构建大模型与小模型协同进化的生态系统 [33][34][35] 核心技术细节与评估挑战 - 有效参数的计算采用两步估计法:首先用Scaling Law拟合参数量与预训练损失的关系,再用Sigmoid函数拟合损失与下游任务性能的关系 [37][40][45] - 为统一衡量不同架构,密度定义可扩展为参考模型与目标模型推理成本的比值,并针对稠密模型、MoE模型和量化模型给出了具体计算公式 [45][46][47] - 当前能力密度评估是一种相对测量,其准确性高度依赖于评测基准的质量,行业需要建立更全面、无偏见的评估体系 [31][38]
大模型不再拼“块头”——大语言模型最大能力密度随时间呈指数级增长
科技日报· 2025-11-25 08:13
文章核心观点 - 清华大学研究团队提出大模型“密度法则”,用以衡量AI大模型的智力能力水平,该法则揭示最大能力密度随时间呈指数级增长 [1] - 能力密度的提升意味着可用更少参数实现相同智能水平,推动大模型向高效化、普惠化发展 [1][2] - 密度法则与摩尔定律类似,为学术界和工业界的技术创新提供科学指引,促进AI应用更广泛地部署于终端设备 [3] 密度法则的定义与内涵 - 能力密度是衡量大模型每一单位参数所包含智慧水平的指标,类似于评价芯片的电路密度 [1] - 研究核心假设为采用相同制造工艺和充分训练的不同尺寸模型,其能力密度相同 [1] - 行业评价重心从模型的“块头”(参数量)转向“能力密度”,关注其高效发展规律 [2] 密度法则的量化规律 - 对51个开源大模型的系统分析显示,最大能力密度从2023年2月至2025年4月约每3.5个月翻一倍 [1][2] - 同能力模型的推理开销随时间呈指数级下降 [2] - 能力密度提升速度在ChatGPT发布后加速,从每4.8个月翻倍提升至每3.2个月翻倍,增速提升50% [2] 对行业发展的影响 - 能力密度提升使运行大模型所需算力减少,成本降低 [3] - 结合芯片电路密度(摩尔定律)与模型能力密度提升,大模型未来可部署于终端芯片 [3] - 终端部署在响应速度和用户隐私方面具备先天优势,驱动智能座舱从“被动响应”走向“主动服务” [3]