Workflow
规模法则
icon
搜索文档
黄仁勋最新发文,价值万亿的AI五层蛋糕,您在哪一层?
创业邦· 2026-03-16 11:46
AI产业的五层蛋糕模型 - 英伟达CEO黄仁勋提出“AI是一块五层蛋糕”的产业模型,将AI还原为一项遵循严苛物理规律和重资产逻辑的基础设施工程 [5][6] - 该模型揭示了AI发展需要调动全球电网、核反应堆、跨洋光缆、精密半导体及数以百万计蓝领工人的现代重工业大建构 [6] - 这可能是人类社会继电力网络和互联网之后,第三次也是最大规模的一次全球基础设施重构 [34] 范式转移:从预录制到实时生成 - 传统计算运行的是“预录制软件”,底层是人类程序员写好的规则,计算机高效但无理解力 [8] - 当前的大模型带来了“实时智能”,直接吞吐海量的非结构化数据,在极短时间内理解上下文并进行概率推算,生成拟人化的行动或答案 [8][10] - 这一转变导致“推理”取代“检索”,成为实时消耗庞大算力的核心活动,智能变成了可度量、生产、交易的实体商品 [11] 第一层:能源 - 能源是五层蛋糕的最底层,已成为制约AI发展的最大物理瓶颈 [13][14] - 训练一个前沿的万亿参数大模型,其耗电量等同于一个中型城市,而每天数百亿次的实时推理请求正将电网负载推向极限 [14] - 算力需求的年增长率已远远甩开摩尔定律带来的节能红利 [15] - 麦肯锡预测,到2030年,美国数据中心电力需求将翻两番,达到80-100吉瓦 [17] - 科技巨头成为全球最大的能源买家,例如微软购买核电站产能,亚马逊接手核反应堆,谷歌寻觅地热能与碳捕集天然气发电 [17] - 数据中心选址逻辑从“跟着光纤走”转变为“跟着发电厂走”,稳定、廉价的基荷电力成为AI时代的“石油” [17] 第二层:芯片与硬件 - 半导体硬件是将电子转化为智能的引擎,包括英伟达GPU、谷歌TPU、亚马逊Trainium及台积电、阿斯麦、SK海力士等全球供应链 [17] - 目前绝大部分行业利润和资本开支都淤积在这一层,原因是行业仍在押注规模法则,对算力储备落后的恐惧支撑着数以千亿美元计的硬件采购 [19] - 对于投资人而言,该层潜藏隐蔽的折旧风险,GPU迭代速度极快,三年后可能面临能效比断崖式落后 [21] 第三层:基础设施 - AI数据中心是充满重工业感的庞然大物,数以万计的GPU通过复杂网络交织,散发可怕热量,需部署液冷管道、高压变电站并重新设计承重结构 [21] - 这场数字革命正在疯狂创造传统实体岗位,如钢铁工人、混凝土工、管线焊工、高压电工和暖通工程师,其薪酬和抢手程度创下历史新高 [23] - 在这场革命中,水泥、铜缆、冷却液与光模块等实体材料获得了最稳妥的红利 [23] 第四层:模型层 - 大语言模型、视觉模型、多模态系统是AI基建的“大脑”,正变得能进行逻辑推理并作为智能体执行跨软件任务 [25][26] - 商业逻辑上,该层正经历惨烈的“绞肉机效应”,开源力量的崛起导致基础大模型能力“商品化”,单靠模型聪明已无法构成商业护城河 [26][28] - 真正的壁垒在于拥有独家的高质量私有数据,并能将通用大脑微调成精通特定业务流程的“行业专家” [28] 第五层:应用层 - 应用层包括AI制药软件、无人工厂、私人AI法律顾问、全球供应链调度引擎等,是真正产生价值、实现资金回流的层级 [28][30] - 整块五层蛋糕的资金流向是单向的,如果应用层赚不到足够的钱来反哺底层巨大的资本开支,整个体系可能因资金链断裂而坍塌 [30] - 当前挑战在于许多企业应用AI仅带来“生产力的局部提升”,而非“商业模式的重塑” [32] - 曙光在于AI原生应用正深度嵌入B端核心工作流,并能为结果负责,例如AI销售客服直接完成订单转化并提高20%营收时,应用的价值闭环才算真正跑通 [32][35] 产业启示与坐标定位 - 对于主权国家,抢占智力主权的本质是抢占能源配额与底层算力基建,这关乎国家安全 [37] - 对于产业投资者,与其在应用层百团大战中下注,不如投资提供水、电、管线、光模块和散热设备等“卖铲人”资产 [37] - 对于企业和个人,算力终将充沛且低廉,生死线在于“如何用AI重组现有的组织结构和技能树”,而非“如何拥有AI” [37] - 最先倒下的将是那些用旧石器时代的组织方式,试图驾驭量子时代工具的人 [37] - 这场五层蛋糕的烘焙,将是一场持续十年的残酷大洗牌 [37]
万物皆计算:重塑人类未来的五大底层逻辑
腾讯研究院· 2026-03-13 15:33
文章核心观点 - 人类正处于由人工智能(AI)驱动的认知范式革命之中,其深度堪比哥白尼的“日心说”对“地心说”的颠覆 [5] - 这场革命由五大互相关联的范式转变构成,它们共同重塑了我们对计算、智能以及AI未来发展的理解 [6] 自然计算 - 计算是一种自然现象,早在人类制造计算机之前就已存在于自然界,这一认知将推动计算机科学、AI、物理学和生物学的革新 [6] - 约翰·冯·诺依曼在1951年就发现了计算与生物学的深刻联系,证明了生命本质上是“计算性”的,DNA即是生命的代码 [13][14] - 艾伦·图灵在理论生物学领域做出开创性贡献,描述了组织如何通过感知和释放化学信号(形态发生素)进行生长和分化,这是一种强大的模拟计算形式 [16] - 谷歌“智能范式”团队的实验表明,在一个模拟的玩具宇宙中,可以从随机字符串“汤”中自发涌现出能够自我复制的最简单“人工生命”形式 [18] - 生命的复杂性通过自愈或繁殖能力得以持续存在,进化通过“多级选择”机制,使现有部分反复组合,形成越来越庞大复杂的实体,人类智能即源于约860亿个神经元的协同运算 [22][23] 神经计算 - 计算机科学的先驱们早已认识到大脑本质上是计算机,早期计算机的逻辑门即被构想为人工神经元 [25] - 传统AI(GOFAI)试图通过编写精确程序来复制智能,但最终失败,导致神经科学与计算机科学分道扬镳 [26][27] - “联结主义”学派拥抱机器学习,让神经网络从经验中学习,但20世纪基于二进制和串行执行的经典计算范式与神经计算并不契合 [28][29][30] - 大脑拥有约860亿个神经元,运行缓慢但高度并行且节能,而传统计算机模拟神经计算效率低下 [32][33] - 未来的神经计算范式将出现,其芯片可能包含数百万计像神经元一样并行工作的处理节点,计算由分布存储的数十亿参数决定,并能从经验中学习,实现分散且稳健的计算 [34][35] 预测智能 - 大语言模型(LLM)仅通过预测下一个词元就展现出惊人的通用智能,这一发现具有划时代意义 [36] - “预测性大脑假说”认为大脑进化是为了不断建模和预测未来,智能建立在不断演进的知识和对未来的统计建模之上 [10][38] - 未来的AI模型将演变为自我构建的系统,通过经验动态生长发展,并消除训练与推理(运行)之间的界限,实现持续、开放式的学习 [10][40] - LLM作为强大的通用预测器,不仅能处理语言,还能彻底变革机器人技术,驱动从自动驾驶汽车到人形机器人的各种形态 [42] - 拥抱预测处理范式,将规划、行动和预测统一起来,有望改进AI技术,并为机器学习、神经科学和理论生物学建立统一的理论基础 [43] 通用智能 - 关于AI是否具备真正智能的争论,功能主义的视角更为重要:关注系统实现的目的和功能,而非其具体实现方式 [48][49] - 当前的AI模型已经能够完成一系列广泛且不断增长的认知任务,其技能广度已超越任何单个人类个体 [10][53] - 衡量AI性能的标准已悄然从“任何个体”转变为“全人类”,当前单个人类的“通用性”已低于AI模型 [53] - 实现AGI(通用人工智能)的关键在于“无监督训练”,即在不规定具体任务的情况下进行通用学习,使模型获得广泛能力 [54] - AGI可能没有一个明确的跨越界限,或者这个界限已经被跨越,如今的LLM若展示给2002年的AI研究人员,会被认为是AGI [48][53] 集体智能 - 智能本质上是社会性的,“社会智力假说”认为人类智能的爆发源于社会性反馈循环和心智理论的发展 [10][56] - 人类通过认知分工组成了一个“超级生命体”,其智慧是集体性的,LLM通过训练大量人类集体成果,已在知识广度和平均深度上远超任何单个个体 [62] - 大脑皮层是一个模块化的“社区”,由运行通用学习算法的专门化区域组成,智能可被理解为一种“社会性分形” [64][65][66] - AI模型也遵循“规模法则”,更大的模型更聪明,并通过“专家混合模型”或“涌现模块化”实现内部的认知分工 [67] - AI发展的前沿正从单一的、权重冻结的基础模型,向具备高度自主性、能与其他智能体互动协作、并具备长期记忆和持续学习能力的形态演进 [68][69] - 智能的社会视角为AI工程和哲学问题(如意识)提供了新视角,LLM在心智理论测试中表现与人类不相上下,因其训练数据本就包含大量此类任务 [70]
2025,AI行业发生了什么?
经济观察报· 2026-01-10 17:01
文章核心观点 2025年是AI行业发展的里程碑之年,行业在技术、商业、产业和治理等多个维度经历了深刻变革,从技术范式的革新和商业逻辑的重构,到产业应用的落地和全球规则的博弈,标志着AI正从能力展示阶段迈向效率兑现和成熟发展阶段[2] 多模融合 - AI大模型从“拼装式”多模态方案转向设计“原生多模态”模型,从训练之初就在同一体系内处理文本、图像、音频、视频等信息[4] - 多模态模型的瓶颈在于能否将视觉、语言、时间与空间组织成可推理、可行动的统一表征,“世界模型”与“空间智能”成为重要理论依据,模型目标从回答问题转向介入真实任务[5] - 多模态AI成为新一代AI系统的关键底座,据Gartner预测,到2030年,**80%**的企业软件将植入多模态AI能力[6][7] 具身爆发 - 具身智能(Embodied AI)在2025年真正走向市场,行业叙事从“能不能做到”转向规模化、稳定工作和进入岗位,宇树、优必选、波士顿动力、Apptronik等企业产品进入量产与商业化试点阶段[8] - 人形机器人成本显著下降,根据美国银行研究院数据,典型人形机器人价格已降至每台约**3.5万美元**,比2023年下降至少**40%**[9] - 需求增长由原生多模态AI发展补足机器人理解能力短板,以及制造业、物流等领域用工成本持续抬升共同驱动,IDC估算显示2025年全球在仓储、制造等岗位的试点应用较2024年增长数倍[8][9] 算力竞争 - 算力竞争从“规模导向”转向“效率导向”,决定差距的不再是算力总量而是如何将有限算力转化为有效能力,国产模型DeepSeek通过多维并行等策略在更低投入下做出接近性能被视为象征[10] - 部分开发者开始直接介入芯片环节以降低对GPU的依赖,例如谷歌的TPU已在核心模型训练中大规模替代GPU[10] - 算力设施全面“基础设施化”,2025年的智算中心围绕AI负载设计,网络拓扑以并行训练为核心,选址需评估电力、能耗与时延[11] 范式争议 - 理论界对持续算力投入的理论基础“规模法则”提出反思,“图灵奖”得主杨立昆等研究者指出单纯扩大自回归大模型不会自然通向通用智能,继续堆参数与数据只会带来收益递减[12][13] - 规模法则仍有拥护者,认为以大模型为核心的路线能力边界仍在扩大,尤其在多模态和复杂推理任务上规模仍是重要前提,DeepMind联合创始人认为通向更高智能的关键在于世界模型等结构,是在规模基础上的方向修正[13] - 争议双方都对现有范式有所不满,这种争议可能推动AI界重新审视既有思路,寻找更优发展路径[13] 代理崛起 - AI智能体(Agent)在2025年崛起,代表案例是初创公司Monica的Manus,它能自动调用外部工具完成简历筛选、股票分析等复杂任务,随后被Meta以数十亿规模收购[14] - 智能体带来了人机交互方式的变化,从“人去找功能”转向“任务驱动系统”,用户只需提出目标,系统便自动规划路径,显著降低了学习和使用成本[14] - 智能体的出现是大模型在推理、多模态等能力增强,以及工具调用协议标准化共同作用的结果,使AI第一次具备跨步骤、跨系统完成任务的可行性[15] 开源盛世 - 2025年开源模型在性能、生态与采用率上全面逼近甚至部分超越闭源体系,在多份权威报告中,新发布的大模型中开源或“开放权重”模型已占据多数,在私有部署、微调等场景中占据主导[16] - 中国力量在开源生态中格外醒目,以DeepSeek与Qwen为代表的模型在工程效率、推理成本上形成优势,相关统计显示2025年全球开源模型使用中,中国来源已接近**三成**[17] - AI创新分工结构正在重组,基础模型更像底层平台,真正的创新越来越多发生在模型之上的微调、工具链与行业应用中,开源成为降低门槛、加速扩散的现实机制[17] 商业革新 - AI行业在2025年摸索出新的商业路径,形成分工清晰的产业生态,在技术底层,算力、训练与推理被标准化为可计量的“生产要素”,通过算力租赁、API等服务形成稳定收入[18] - 在平台服务层,“结果作为商品”(Outcome-as-a-Service, OaaS)模式崛起,定价从“功能售卖”转向按任务、流程或结果收费,成为利润潜力最大、竞争最激烈的地带[18] - 在应用层,垂直行业的价值被逐步释放,AI正深度嵌入软件开发、金融分析等业务流程,成为企业的长期系统投入,商业逻辑从“能力展示”转向“效率兑现”[19] 规则博弈 - AI治理在2025年全面展开,治理逐渐从“静态合规”转向“动态校准”,通过分层、分阶段、可调整的方式与技术演进保持同步,治理对象从单个模型延伸到数据、算力等完整链条[20] - 全球治理呈现不同制度体系间的纵向博弈,美国倾向将治理视为“护栏”,优先关注国家安全与极端风险;欧盟强调通过系统化规则塑造发展方向;中国更强调发展秩序与场景适配,规则与产业推进同步调整[21][22] - 治理博弈是AI迈向成熟的标志,如何在创新开放性与规则约束之间形成动态平衡,将决定AI能否长期、稳定嵌入社会结构[22] 大国竞合 - AI国际竞争从企业层面上升到国家层面,中美欧形成彼此错位、高度纠缠的竞争格局,美国在核心技术层面掌握最强话语权和“问题定义权”[23] - 中国的路径更强调在既有技术框架下,通过工程优化、系统集成和真实场景反馈,在训练效率、算力调度、具身智能与产业级应用等方面形成优势[23] - 竞争围绕芯片与算力供应链以及标准制定权展开,美国依托技术领先形成“事实标准”,中国在大规模部署中形成“用出来的标准”,欧洲则试图通过制度化规则在国际标准体系中发声[24] 少帅掌兵 - 2025年AI行业出现年轻科学家被赋予指挥权的趋势,例如腾讯任命27岁的姚顺雨为首席AI科学家,小米启用“95后”科学家罗福莉,Meta引入Scale AI创始人亚历山大·王担任首席AI官[25][26] - 这一趋势背后是AI发展逻辑的变化,行业进入“下半场”,核心从“解决问题”转向“提出什么问题、如何衡量进步”,这种能力往往出现在长期浸泡在一线研究的年轻技术派身上[26] - “少帅掌兵”是产业进入深水区后的结构性调整,当技术范式更不确定时,组织更需要愿意快速试错、敢于在不完全信息下判断的人,年轻科学家开始直接影响公司战略与技术路径[26]
中国大模型团队登Nature封面,刘知远语出惊人:期待明年“用AI造AI”
36氪· 2025-12-25 09:24
大模型发展规律:从规模法则到密度法则 - 过去半个世纪,全球科技产业遵循摩尔定律,即芯片性能每18个月翻一番[1] - 安迪-比尔定律指出,硬件性能提升的红利会被软件复杂度的增加所抵消,驱动了PC与互联网时代的产业进化[1][2] - 在生成式人工智能时代,Scaling Law(规模法则)主导下,模型参数指数级膨胀,软件对算力的索取远超摩尔定律的供给速度,AI发展的边际成本急剧上升[2] - 当硬件供给遭遇能源、数据等天花板时,旧的“安迪比尔”式增长范式开始失效[3] - 产业需要一场逆向革命,大模型需要通过极致的算法与工程化重构,在现有硬件上爆发更强的能力[4] - 清华大学刘知远团队在《自然·机器智能》发表论文,正式提出大模型的“密度法则”[5] - 基于对51个主流大模型的严谨回测,论文揭示从2023年到2025年,大模型的智能密度以每3.5个月翻倍的速度狂飙[5] - 这是一条比摩尔定律陡峭5倍的进化曲线,意味着每100天,就可以用一半参数量实现当前最优模型相当的性能,每100天成本减半,一年后成本就可能降至原来的十分之一[6] - 密度法则与规模法则相辅相成,是硬币的两面,密度法则通过在模型架构、数据治理、学习方法等方面的持续技术创新,找到一条更加“陡峭”的“规模法则”曲线[16][17] - 密度法则并非自然规律,而是人类社会在该科技领域的一种“自我实现”:投入越多,密度增长越快,2023年之前周期接近五个月,2023年之后则缩短到三个多月[14] 中国大模型公司的技术创新路径 - 2025年,中国大模型公司成为通过架构创新提升模型效率的最坚定实践者[5] - DeepSeek V3通过细粒度混合专家架构以1/10算力成本对标顶尖模型[5][18] - Kimi等团队在稀疏注意力机制上取得突破[5] - 清华大学刘知远及其面壁智能团队发布的MiniCPM系列模型,仅用约1/10的参数规模,即可承载对标云端大模型的智能水平,成为端侧高效AI的案例[5] - 追求效率有中国算力有限的国情因素,中国企业正通过技术创新绕过“算力墙”[11] - 2025年是模型架构创新的大年,主要方向包括:以DeepSeek V3为代表的细粒度混合专家架构走向成熟;稀疏注意力机制大行其道;复兴循环神经网络思想,与Transformer混合架构[20] - 大规模强化学习的应用取得巨大飞跃,尤其在数学和代码领域,模型通过自我探索持续提升能力,解决了数据枯竭的问题[19][20] - 原生训练的高密度模型相比剪枝、量化等方法更具优势,剪枝、蒸馏、量化都会降低模型密度,要把密度做高必须从头构建一套复杂的原生技术体系[28] 密度法则对产业竞争格局的影响 - 3.5个月的迭代周期意味着,任何一个投入巨资训练的大模型,如果不能在3到6个月内通过商业化收回成本,这种模式就很难持续[6][29] - 云端API服务的竞争会极其惨烈,最终可能只会剩下几家拥有海量用户和强大技术迭代能力的头部厂商[29] - 对于创业公司而言,机会可能在于“端侧智能”,端侧场景的约束条件使得技术优势成为唯一的竞争点,大厂的“钞能力”难以发挥[29] - 端侧智能会先从智能座舱等对功耗不那么敏感的场景开始,最终AGI时代一定会有属于它自己的智能终端形态[30] - 虽然训练模型的厂商会收敛,但推理算力需求会爆炸式增长[33] - 快速发展肯定伴随局部泡沫,但整体上正进入智能革命时代,如果AI也走50个周期,按现在的速度,大概到2030-2035年就能实现全球普惠的AGI[31][32] 技术前沿与未来展望 - 谷歌发布的Gemini 3是一个非常重要的里程碑,它在图像生成中对文字的控制达到了前所未有的高度,表明其模型的可控性和对世界的理解能力达到了新水平[22] - 密度法则是一个普遍规律,虽然不同领域的倍增周期可能不同,但只要是通用的、遵循Scaling Law的模型,未来也一定会遵循Densing Law[21] - 端侧设备的发展受限于多个因素:尚未形成好的端侧应用场景;端侧技术生态尚未形成;AGI发展还没收敛,产品设计上还没法完全规避错误[23][24] - 软硬协同面临挑战,硬件厂商受摩尔定律18个月周期的影响,架构调整更审慎,而模型每3个月就进化一次,短期内是软件适配硬件,长期看硬件会针对稳定的新技术做优化[26][27] - 最期待的创新是“用AI制造AI”,明年一个重要节点是自主学习,未来的生产标志就是“用AI制造AI”,这将是一个指数级加速的过程[35]
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 11:09
文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线,前者追求能力跃迁,后者追求效率提升,即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度,效率提升将加速端侧智能(如手机、汽车)和分布式智能的发展,最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law,是当前主要瓶颈,未来的关键方向是自主学习(Self-Learning)和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线:规模法则 (Scaling Law)**:自2018年预训练模型出现后,每隔几年模型能力就会跳跃一次,模型正变得更通用,甚至开始接近或超越人类在某些领域的能力 [12] - **暗线:密度法则 (Densing Law)**:这是大模型时代的“摩尔定律”,关注如何用更少的计算和数据资源更高效地获得智能,核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**:根据研究,大模型的能力密度(衡量单位参数/算力下模型能力的指标)每3.5个月翻一倍,自2023年1月ChatGPT出现后,这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**:核心方向包括采用稀疏化的混合专家系统以降低算力消耗,以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**:通过高质量的数据清洗、精选和合成,可以大幅提升训练效率,例如将预训练数据集精炼至不到原始容量的1/10,效果反而更好 [22][23] - **学习算法演进**:当前重点转向强化学习,但其尚未出现清晰的Scaling Law,主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**:结合芯片制程进步(摩尔定律)与模型能力密度提升,共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**:强化学习缺乏像预训练那样清晰的Scaling Law,大多数训练仅几千步,如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**:一是继续扩大RL的规模,探索开放域的激励定义;二是寻找更高效的新学习方式,提高样本效率,让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**:只要有足够数据和反馈,强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平,预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**:2023年全国端侧算力(主要是手机)是数据中心算力的12倍,信息化本质是分布式算力和信息的结构,智能化也将遵循这一路径 [9][35] - **端侧部署时间表**:结合密度法则提升和芯片路线图,预测到2030年左右,端侧可部署600亿以上参数的模型,5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**:车端模型量产速度非常快,已与多家车企合作;预计2027年成为关键节点,届时手机可实现大规模强化学习,支持个人数据训练“专属大模型助理” [32][33] - **未来形态**:智能将分布式存在,形成“智能体的互联网”,个人拥有基于终端数据持续成长的“个人大模型”,云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进:自主学习与AI造AI - **核心方向**:预训练和强化学习之后,下一个大的方法改进是自主学习,即模型能作为一个高效的学习者,根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**:第一阶段是实现自主学习;第二阶段是具备自主学习能力的AI之间的协作;第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**:最早的AGI形态可能不是面向消费者的产品,而是面向生产的系统,具备“AI造AI”的能力,即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 16:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]
大模型不再拼“块头”——大语言模型最大能力密度随时间呈指数级增长
科技日报· 2025-11-25 08:13
文章核心观点 - 清华大学研究团队提出大模型“密度法则”,用以衡量AI大模型的智力能力水平,该法则揭示最大能力密度随时间呈指数级增长 [1] - 能力密度的提升意味着可用更少参数实现相同智能水平,推动大模型向高效化、普惠化发展 [1][2] - 密度法则与摩尔定律类似,为学术界和工业界的技术创新提供科学指引,促进AI应用更广泛地部署于终端设备 [3] 密度法则的定义与内涵 - 能力密度是衡量大模型每一单位参数所包含智慧水平的指标,类似于评价芯片的电路密度 [1] - 研究核心假设为采用相同制造工艺和充分训练的不同尺寸模型,其能力密度相同 [1] - 行业评价重心从模型的“块头”(参数量)转向“能力密度”,关注其高效发展规律 [2] 密度法则的量化规律 - 对51个开源大模型的系统分析显示,最大能力密度从2023年2月至2025年4月约每3.5个月翻一倍 [1][2] - 同能力模型的推理开销随时间呈指数级下降 [2] - 能力密度提升速度在ChatGPT发布后加速,从每4.8个月翻倍提升至每3.2个月翻倍,增速提升50% [2] 对行业发展的影响 - 能力密度提升使运行大模型所需算力减少,成本降低 [3] - 结合芯片电路密度(摩尔定律)与模型能力密度提升,大模型未来可部署于终端芯片 [3] - 终端部署在响应速度和用户隐私方面具备先天优势,驱动智能座舱从“被动响应”走向“主动服务” [3]
智能体崛起!
搜狐财经· 2025-10-10 01:53
OpenAI的战略转型与新产品 - OpenAI从模型公司转型为“用自然语言驱动生产力”的智能体平台 [2] - 推出四个核心新物种:Apps SDK(自然语言创建应用)、AgentKit(多智能体系统框架)、Codex(自动编写修复测试代码)、Sora 2(一句话生成视频模型和应用)[2] AI驱动的生产力革命与个体能力跃迁 - AI释放的生产力属性让每个人有机会成为“自开发”、“自公司”、“自团队”,其影响是自媒体时代的千倍万倍 [5] - 个体将能独立完成写出代码、产出软件、落地产品的完整生产闭环,催生由无数个体开发的“自产品”世界 [5] - 技术进步最伟大的发明是赋予个体“能力平权”的思想和能力 [6] AI时代工具的本质与超级个体组织 - AI工具将把真正脑力劳动者的能力放大到超人级别,实现“一个人+多个Agent”的超级个体组织 [9] - 执行层面按部就班的中层管理角色将被“中层机器人”取代,个体可独立完成定义产品、搭建团队、制定流程、生成广告、管理用户的完整商业链路 [9] - 未来创业只需调研机器人、开发机器人、营销机器人等Agent集群,资本将投向“Agent集群”及其调度者 [10] 公司组织形态的重构与平台格局演变 - 公司的本质是分工协作的制度化,当智能体能自动分工执行评估,组织本身需要Agent重构 [11] - 个人需要新的“组织力”来管理时间、协调多个Agent配合以及用机器人管理其他机器人 [12] - AI时代科技主导者可能从七家巨头缩减到两三家,平台将围绕AI重建内容、商业、社交和资本生态 [17] AI原生平台的结构优势与内容产业变革 - Sora 2作为AI时代的“抖音”,其最大优势在于“原生结构”更优:内容由语言生成,语义密度高,生成过程可直接向量化内容以实现精准分发 [14][16] - 传统视频平台第一关卡在内容理解,而AI原生平台在语义空间中进行推荐更准确高效 [16] 技术红利分配与差异化竞争策略 - 技术红利下放但最终胜出者仍是极少数,例如人人都能拍视频但能破千播放量的仅占前3%,能赚到1万元的又是这3%里的3% [18] - “规模法则”适用于技术、商业和社会,最强者一骑绝尘,多数人面临增长瓶颈和全球性“内卷” [19] - 差异化竞争策略是不与顶尖0.01%正面竞争,而是在自有坐标中做到差异化的0.01% [19] 未来技术演进与核心竞争力 - 量子计算等高阶算力平台将使“想法”到“实现”的时间差无限逼近“瞬时”和“边际零成本” [21] - 当“实现”不再稀缺,唯一的真正竞争力将回归创意与思想本身 [22]
人形机器人亿元级订单接连落地,半年前刚投钱的股东向智元下单近千台
新浪财经· 2025-10-09 19:45
行业订单趋势 - 国内具身智能机器人领域亿元级订单落地节奏自今年下半年以来加快 [1][4] - 2025年被业内视作人形机器人商用化元年 [4] - 国内多家本体企业已在2024年底至2025年初完成百台至千台交付 [7] 智元机器人合作与订单 - 智元机器人与龙旗科技达成深度战略合作 获得数亿元金额的智元精灵G2机器人框架订单 [1] - 合作将部署近千台机器人 是目前国内工业具身智能机器人领域最大订单之一 [1] - 智元机器人将提供从场景适配、定制、安装培训到技术维护的全周期一体化服务 [2] - 龙旗科技持有智元机器人0.7394%的股权 并参与其B轮融资 [2] - 智元机器人曾与富临精工达成数千万元项目合作 近百台远征A2-W将落地工厂 [4] - 智元机器人中标中移信息人形双足机器人代工服务采购项目 获得7800万元订单 [6] 其他公司动态与订单 - 智平方与深圳慧智物联达成战略合作 计划未来三年内在惠科全球生产基地部署超过1000台具身智能机器人 [4] - 智平方自有工厂于今年9月正式投产 年产能超千台 [4] - 优必选于4月签订大型双足人形机器人采购合同 7月中标觅亿汽车9051.15万元项目 [5] - 优必选于9月初获得某国内知名企业2.5亿元具身智能人形机器人产品及解决方案采购合同 创全球人形机器人最大合同纪录 [5] - 优必选子公司UQI优奇与天奇股份签订总价3000万元的Walker S系列采购合同 将于2025年底前完成交付 [6] - 宇树科技中标中移信息人形双足机器人代工服务采购项目 中标金额为4605万元 [6] 行业应用与挑战 - 智元精灵G2前期重点应用于平板产线 实现具身智能机器人在消费电子组装制造场景批量落地 [1] - 行业真正推动非线性增长的转折点在于硬件降本与机器人大脑智能的双重突破 [7] - 当前交付场景多集中于科研、教育、展示等ToG领域 软件层的智能突破尚未显现 [7]
Anthropic CEO“讨伐”黄仁勋、奥特曼:一个令人失望,一个动机不纯
36氪· 2025-08-01 12:12
核心观点 - Anthropic首席执行官驳斥英伟达CEO关于AI安全控制的批评 强调公司推动"向上竞赛"的使命 通过透明政策和创新研究引领行业发展[1][3] - Anthropic营收从2023年1亿美元飙升至2024年前7个月45亿美元 按此增速两年后或达千亿美元[1][5][9] - 公司认为AI发展遵循指数增长规律 模型能力与经济价值将持续快速提升 编程用例成为战略重点[8][9][11][16] - 强调使命认同感是留住人才的核心 Meta高薪策略长期效果存疑 公司已筹集近200亿美元资金 资本效率优于竞争对手[5][13][14][15] 驳斥黄仁勋"AI安全控制论" - 明确否认试图通过AI安全议题控制行业 强调Anthropic通过发布负责任的扩展政策、可解释性研究等透明措施促进行业整体进步[3] - 指出黄仁勋的批评是对立场的曲解 公司目标是树立标杆鼓励其他公司效仿而非技术垄断[3] - 随着AI能力提升 公司认为有必要更公开地表达观点 包括警示潜在风险与强调积极应用[3][4][7] AI指数增长与技术突破 - 坚信AI发展遵循指数增长规律 模型能力每6个月翻倍 未发现阻碍扩展的根本障碍[8][9] - 编程能力显著提升 模型在SWE-Bench测试得分从18个月前3%提升至当前72%-80% 内部大部分代码由AI协助完成[11] - 持续学习问题可通过规模法则解决 上下文窗口已扩展至数百万单词 接近人类一生信息接收量[11] - 否认忽视新技术开发 每款Claude模型均伴随架构、数据和训练方法创新 人才密度保障技术持续进步[12] 资源竞争与商业模式 - 已筹集近200亿美元资金 数据中心规模与行业领军者相当 受能源和资本化限制而非资金短缺[13] - API是主要收入来源(占比60%-75%) 企业用例被视为更具潜力 模型能力提升对商业客户价值显著[16] - 编程成为战略重点 因其商业价值突出且能反哺模型开发 定价逻辑基于创造价值而非单纯成本[16][17] - 预计今年亏损30亿美元 因持续投资新模型训练 现有模型本身已盈利但整体因研发投入未盈利[19] 行业竞争与人才策略 - Meta高薪挖角策略遭质疑 公司通过系统化薪资制度和使命认同保持低流失率[5][13][14] - 强调资本效率优势 以1亿美元实现其他公司10亿美元效果 收入增速证明竞争力[15] - 开源模型威胁被夸大 竞争核心在于性能而非开源 云端微调服务可弥补开源优势[20] 公司创立背景与价值观 - 离开OpenAI因认为其领导层动机不够真诚 另立门户追求"真诚的影响力"[22][23] - 批评OpenAI CEO行为极端不道德 强调组织决策对AI安全的关键作用[24] - 平衡AI潜力与风险 主张渐进式监管 若技术失控将呼吁全球暂停开发[25]