Scaling Law
搜索文档
刘煜辉:当AI Scaling撞上天花板,谁在真正兑现技术红利?
新浪财经· 2025-12-18 17:31
核心观点 - 中国资本市场需要建立独立的全球资产定价体系 逐步摆脱对西方估值体系的被动映射 以反映中国在工业制造和系统集成上的压倒性优势 [1][5] - 全球产业格局发生根本性位移 未来的资产溢价将属于拥有最扎实产能和完整产业生态的一方 [1][10] 产业优势与全球份额 - 在AI硬件制造与供应链领域 全球绝大多数端侧设备(如手机、PC)的制造和供应链整合集中在中国 [3][7] - 在新能源汽车领域 中国已形成从电池材料、电芯到整车的闭环产能 占据全球60%以上份额 [3][7] - 在绿色能源基础设施领域 包括光伏、风电、特高压电网 中国向全球输出产能 [3][7] - 中国的“超级工业Power”体现在不依赖于传统资源的能源产能和电网等基础设施 [3][7] 产业趋势与价值锚点 - 支撑西方AI叙事的Scaling Law(规模定律)可能在2026-2027年触碰物理极限 其价值面临急速下坠风险 [5][9] - 西方的定位日益接近于纯粹的技术蓝图输出者 而中国在产业落地和生态构建上具有优势 [5][9] - 未来的价值溢价属于能将技术转化为千千万万人用得起、离不开的产品的扎实产能 [10] - 凝聚工匠精神和大国重器的产业未来理应享有全球资产溢价 [5][9]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]
具身智能的数据困境?简智正以闭环飞轮推进解决
具身智能之心· 2025-12-17 18:00
行业核心痛点与共识 - 高质量真机数据是决定具身智能模型能力上限的关键,但当前行业面临高质量真机数据极度匮乏的困境[3] - 模仿学习(如看视频)必要,但真正掌握技能,真机数据是关键[3] - 仿真、人类视频等替代数据存在核心能力妥协,唯有真实、海量的物理世界交互数据才是通往通用机器人智能的必经之路[6] - 传统数据采集方案存在显著短板:Aloha设备两班倒每天仅产生4-5小时有效数据,要达到规模化数据集(如Gen-0)规模需500套同类设备同时运转,实操难度大[6] - 视频数据训练的模型缺乏真实场景实操经验,传统遥操和UMI数采方案则存在成本高、部署难或数据质量参差不齐的问题[6] 公司核心理念与战略 - 公司核心理念是“具身智能源于人、回归人”[3] - 公司采用全栈自研的“产品+产线”双轨战略,搭建“人类技能数字化 - 云端AI数据治理 - 机器人应用”的完整闭环[3] - 公司推出Gen Data 1+x产品矩阵,旨在从源头打通物理世界与数字世界的数据壁垒[7] 数据采集解决方案:Gen Das - Gen Das是一款无感可穿戴采集设备,以“头+手”为核心交互触点,瞄准“夹抓类”核心技能[9] - 设备重量仅470g,开机即用,贴合人体自然曲线设计,便于长时间操作以捕捉真实动作反馈[9] - 设备性能参数针对解决采集难题:指尖、指腹覆盖超过30000个触觉检测点,最小压感仅7g[12];搭配毫秒级、亚毫米级的关节追踪[17];采用全栈自研优化的ISP图像处理与CMOS传感器[17];具备“双手协同”“手眼协同”高精度坐标对齐技术,时间误差小于1ms,轨迹误差小于1cm[17];具备将数据体积压缩至原大小2%的超强压缩能力,可实现分钟级快速上传[17] 技能落地与硬件闭环:Gen Controller - Gen Controller作为技能落地端,与Gen Das采用同构设计,理论上可实现人类技能向机器人终端的快速迁移[14] - 该设计旨在构建“源于人的采集”到“回归人的应用”的硬件闭环,解决数据与应用脱节的行业通病[14] 数据处理与治理体系 - 具身智能领域存在Scaling Law(数据规模与模型能力正相关),需要高效的数据治理体系[15] - 公司通过两大核心引擎(Gen Matrix与Gen ADP)解决海量数据转化为模型“优质燃料”的难题[15] 数据智能平台:Gen Matrix - Gen Matrix是数据智能平台中枢,承担“迭代发动机”角色[18] - 功能包括:根据模型需求对海量数据进行定制化清洗、自动切片标注、环境重建;对模型结果进行评测并自动生成二次数据需求,形成“采集-处理-评测-再采集”的智能循环[18] - 具备高精准还原能力,轨迹真值误差小于1cm[18] 数据产线:Gen ADP - Gen ADP是具身智能数据产线,旨在实现千万人员技能数据化,部署灵活,可快速在家庭、工厂、医疗等场所落地[19] - 目标为实现“低成本、高效、高保真、自动闭环”的数据生产[19] - 从效率看,采集后2小时内即可向模型提供新鲜、高质量的加工数据,大幅短于传统几天甚至几周的周期[23] - 目前该产线每日高质量数据产出量超过10万clips,数据时长增长超1万小时且仍在持续加速[23] - 数据显示,平均3-6秒即可从真实家庭中完成一条高质量数据的收集[22] 公司融资与数据资产 - 公司成立仅4个月,已累计完成3轮融资,融资金额超2亿元,是细分赛道融资进展最快的企业之一[24] - 融资历程:种子轮由BV百度风投领投,Momenta、九识智能、星海图跟投;种子+轮由速腾聚创领投,BV百度风投跟投;天使轮由顺为资本领投,初心资本、BV百度风投超额跟投[24] - 公司已积累超百万小时真实场景数据,覆盖家庭、工业、医疗等领域的500余种技能场景[24] 团队与技术壁垒 - 核心成员多来自Momenta、理想汽车、华为、斯坦福、Deepmind等头部企业与科研机构,在数据处理、算法研发、硬件工程等领域具备深厚积累[26] - 不少成员曾在智驾领域取得过行业突破性成果,其经验可为具身智能数据技术研发提供参考[26] 市场前景与商业化 - 具身智能整体市场预计从2025年的44亿美元飙升至2030年的230亿美元,年复合增长率高达39%[27] - 具身数据服务市场增速更快,预计到2031年全球市场规模将达到67亿美元[27] - 公司已与30余家行业头部具身智能企业建立深度合作关系,业务覆盖全球市场[28] - 公司海外收入占比超70%[28]
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 17:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
从「密度法则」来看Scaling Law撞墙、模型密度的上限、豆包手机之后端侧想象力......|DeepTalk回顾
锦秋集· 2025-12-15 12:09
文章核心观点 - 大模型的发展正从依赖规模扩张的“规模法则”转向追求效率提升的“密度法则” [2][3] - “密度法则”指出,模型能力密度每3.5个月翻一倍,使得实现相同智能水平所需的参数量和成本呈指数级下降 [11][28] - 行业未来的核心竞争力将从规模竞赛转向效率与智能密度竞赛,为端侧智能的普惠化奠定基础 [11][59] Scaling Law的可持续性问题 - 规模法则在数据和算力上面临可持续发展瓶颈,并非完全失效,而是“撞墙了” [2][15] - 训练数据瓶颈:核心训练数据依赖互联网公开语料,其规模增长已放缓,基本停留在20T Token左右,难以继续扩展 [15] - 计算资源瓶颈:模型规模指数级增长需要不可持续的计算资源,例如LLaMA 3 405B模型训练使用了1.6万块H100 GPU [16] 密度法则的提出与定义 - 灵感来源于信息时代的摩尔定律,智能时代需要关注“知识压缩效率”与“智能密度” [3][20] - 观察到行业趋势:用越来越少的参数实现相同的智能水平,例如2020年GPT-3需千亿参数,2023年初MiniCPM仅用2.4B参数达到相似能力 [23] - 定义了模型的“相对能力密度” = 同能力基准模型的参数量 / 目标模型参数量,以此量化模型的知识压缩效率 [24][25] 密度法则的核心推论 - 推论1:实现特定AI水平的模型参数量呈指数级下降,每3.5个月下降一半 [32] - 推论2:模型推理开销随时间呈指数级下降,例如GPT-3.5推理百万Token成本约20美元,相同能力的Gemini 1.5 Flash仅需0.075美元 [36][38] - 推论3:自ChatGPT发布后,大模型能力密度的增长速度明显加快 [42] - 推论4:模型小型化带来巨大的端侧智能潜力,未来3-5年端侧芯片预计可运行10B-60B参数规模的模型 [45] 构建超高能力密度模型的制备体系 - 架构高效:趋势从“大模型”迈向“长模型”与“全稀疏架构”,包括前馈网络和自注意力机制的稀疏化,以处理长序列和复杂思考 [53] - 计算高效:坚持软硬协同优化,包括自研训练框架、投机采样、量化技术等,例如全阵敏感4比特量化能在保持99%性能下将存储压缩至Int4 [54][56] - 数据高效:预训练阶段核心是提升数据质量与清洗;后训练阶段关键在于通过人机协同合成高质量数据 [55][57] - 学习高效:构建“模型能力风洞”,通过训练小规模模型验证数据配比、超参等,以科学化调度降低大模型训练的试错成本 [58][67] 行业现状与头部厂商动态 - OpenAI通过推出“Mini”或“Flash”版本,积极将旗舰模型能力压缩至小模型,以降低推理成本 [71] - Google在架构层面进行探索,例如在Diffusion Model中展示非自回归快速生成能力,并应用高效的注意力机制 [71][72] - 预训练数据的核心瓶颈是互联网语料质量低;后训练的关键瓶颈是高质量Query和稳定运行环境的稀缺 [68][69] 未来技术趋势展望 - 明年技术主线将集中在Agent领域,其能力提升的核心驱动力依然是数据积累 [73] - 高质量的后训练数据和稳定的运行环境将成为决定各家模型能力上限的关键因素 [69][73] - 端侧智能预计在2026年迎来重要转折点,驱动力包括普惠化需求、隐私保护以及端侧芯片算力与模型能力密度的协同提升 [75][76][77] - 端侧多模态的发展方向包括高清高刷体验的优化,以及流式全模态处理能力 [78] 模型评价与行业发展 - 现有大模型“排行榜”因容易导致模型过拟合而有效性受到质疑 [82] - 未来需要发展内部私有评测体系,并构建动态、前瞻性的评测集,以引导模型向更通用的方向发展 [84][86] - 长期需关注对模型自主学习能力的评测 [85]
错过GPT时刻后,闫俊杰和中国“草根”们准备赢回来
观察者网· 2025-12-12 14:58
文章核心观点 - 中美AI竞争格局发生深刻变化,以MiniMax、DeepSeek为代表的中国开源AI企业,凭借技术实力、极致效率和独特的商业模式,正在全球舞台上与美国闭源巨头(如OpenAI、Anthropic)展开正面竞争并取得显著成果,中国AI从过去的“追随者”转变为“应用落地的引领者” [5][12][14] 行业竞争格局与历史脉络 - 中美AI领军人物(Anthropic的Dario Amodei与MiniMax的闫俊杰)有共同起点,均曾为百度北美实验室实习生,但后续发展路径不同,分别在美国和中国引领了大模型的发展 [1] - 十年前,中国团队虽洞察到AI趋势(如Scaling Law),但因特定产业环境未能率先突破,与美国在通用大模型发展上存在时间差 [1][4] - 当前,以DeepSeek、MiniMax为代表的中国开源模型企业,正与美国OpenAI、Anthropic等闭源模型生态进行全方位正面对决 [5] 中国AI企业的技术实力与突破 - **模型性能**:DeepSeek最新发布的V3.2模型在关键推理和数学能力上刷新了SOTA纪录,多项核心基准测试中足以比肩甚至部分超越谷歌Gemini 3 [7] - **实战应用认可**:MiniMax M2模型上线OpenRouter后,日Token消耗量一度突破500亿,是首个达到此成绩的中国模型,其份额与xAI、Google、Anthropic和OpenAI等美国闭源模型并驾齐驱 [9] - **架构与性价比**:MiniMax M2利用稀疏混合专家(MoE)架构将激活参数压至100亿,以仅为Claude 4.5 Sonnet 8%的极致性价比获得大量好评 [9] 中国AI企业的核心竞争力与组织模式 - **人才观与组织**:不迷信硅谷的“天价雇佣兵”或“天才光环”,认为中国年轻人蕴藏巨大潜力,关键在于有效组织;MiniMax内部技术大牛多从团队内部成长,靠钱并非留住创新者的核心 [6][7] - **战略定力与第一性原理**:在公司成立之初,坚定选择“技术驱动”之路,认为大模型时代真正的产品是模型本身,传统APP更像渠道 [10] - **极致效率与成本控制**:MiniMax-M1的强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本为53.74万美元(约380万人民币),仅为OpenAI同等模型训练成本的零头 [11] - **人机协同**:公司内部使用AI Agent辅助工作(如自动修改代码),提升组织效率,实现了“实习生也有实习生”的人机协同奇景 [11] 商业模式与市场表现 - **商业闭环**:MiniMax今年年度经常性收入(ARR)已达1亿美元,在视频赛道率先实现正向现金流 [14] - **市场策略**:创新主阵地在Web端,因其能够不依赖买量而自然增长;拒绝“烧钱买量”的务实导向 [14] - **产品差异化**:在AI陪伴领域,产品Talkie不追求所有人喜欢,而是为目标用户提供独特价值,从而在强手如林的美国市场撕开口子 [15] - **全球化与用户导向**:公司坚持直接服务用户、坚持全球化、坚持技术驱动三条原则 [10] 行业影响与未来展望 - **资本效率对比**:全球投行Jefferies报告指出,中国头部AI公司的资本支出仅为美国的18%,但模型性能紧追不舍 [12] - **应用落地引领**:中国“开源军团”在全球应用市场全面开花,例如DeepSeek被诺贝尔奖得主保罗·罗默每日使用,海螺AI、可灵(Kling)等视频生成应用在美国创作者社区口碑炸裂 [14] - **生态冲击**:中国开源生态在性能与成本上对美国高投入闭源模式形成冲击,若OpenAI遭遇危机,可能引发美国整个相关生态的集体失败 [15] - **行业信心**:中国AI创业者自信未来三年内,即使不是自家公司,也会有其他中国团队能够做到引领世界 [15]
大模型的第一性原理:(一)统计物理篇
机器之心· 2025-12-11 18:00
行业背景与核心问题 - 大模型领域在2022年底至2025年底经历了快速迭代,以ChatGPT、DeepSeek和Google的Gemini 3为代表,模型能力突飞猛进,仅在美国,AI领域的投资规模便超过了许多国家全年的GDP [2] - 业界普遍认为Gemini 3是迈向通用人工智能和超级人工智能的关键突破,但大模型的Scaling Law与摩尔定律类似,可能因物理限制而失效,因此理解大模型的第一性原理和界定其能力极限成为迫在眉睫的问题 [3] - 该研究旨在通过结合统计物理、信号处理与信息论,系统地揭示大模型背后的数学原理,以回答大模型是否已逼近其能力极限的问题 [3][4] 研究框架与核心结论 - 研究计划通过三篇文章系列解读论文,分别从统计物理、信号处理和信息论三个维度展开 [4] - 核心结论包括:大模型的推理是输出能量函数最小的下一个Token,训练则是逼近平均能量函数最小的参数组态;其能力极限是时间序列维度的Granger因果推断,因此Scaling Law会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力 [8] - 研究并非否定大模型价值,而是探讨其第一性原理以界定能力极限并探索未来技术路径 [9] 神经网络与统计物理的渊源 - 2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,表彰其在人工神经网络机器学习方面的基础性发现与发明,凸显了神经网络与统计物理的深刻联系 [11] - Hopfield网络(1982年)和Boltzmann机(1985年)的提出均引入了统计物理中的能量模型,为AI研究奠定了基础 [12] - 物理学家Elizabeth Gardner(1988年)使用统计物理中的Spin Glass模型和Replica方法系统研究了Hopfield网络的记忆容量问题,该方法后来被用于研究大模型 [12] Attention模块的统计物理解释 - Attention模块可以用统计物理中的能量模型来描述,其能量函数定义为 $E_{A}(\mathbf{u}_{j})=-\,\langle\mathbf{u}_{i-1},\mathbf{B}\mathbf{u}_{j}\rangle$,注意力权重对应于Boltzmann分布 [18][19] - Attention机制的关键是学习一个组态B,使得语义相关性最高等价于能量函数最低,这与基于隐变量的变分推理解释相吻合 [21] - 双线性型是建模Token之间非对称语义关系的最简形式,而softmax函数是基于极大熵原理,在均值约束下熵最大的离散分布 [16][17] Transformer架构的统计物理解释 - 整个Transformer架构同样可以用能量模型描述,其能量函数定义为 $E_{T}(\mathbf{u}_{i})=-\left\langle\mathbf{u}_{i},\Psi_{\mathrm{FFN}}\left(\sum_{j=1}^{i-1}\pi_{i j}\mathbf{W}_{v}\mathbf{u}_{j}\right)\right\rangle$,即输入到softmax函数的Logits [25][26] - 大模型推理的本质是找到使能量函数最小的下一个Token,训练则是找到使训练集平均能量函数最小的参数组态 [28] - 词表在统计物理框架下对应配分函数求和的范围,在信息论中称为码本,在通信中体现为星座图 [28] 大模型的记忆容量 - 记忆容量研究源于Hopfield网络的Gardner容量,即网络能记住的随机模式数量 [12][30] - 对于Transformer,Attention模块的记忆容量随参数量的线性增加而指数增长,这解释了为什么参数量不大的小模型也能具备很强能力 [33] - 由于小模型记住的模式数量更接近其记忆容量上限,因此对其进行增训非常困难,容易导致模型崩塌 [33] - FFN模块被视为以参数化方式储存知识的关键位置,相关研究促进了无需增训的模型编辑技术的发展 [33] 大模型的泛化误差界 - 基于Transformer的能量模型形式,可以利用Rademacher复杂度和Talagrand不等式从理论上推导泛化误差上界 [35] - 交叉熵损失函数的上界核心取决于能量函数绝对值的和,即Logits的绝对值的和 [35] - 该结论表明,对大模型进行剪枝、蒸馏、量化等小型化操作时,必须谨慎控制这些操作对Logits的影响,因为它们直接决定了模型的泛化误差上界 [35] 大模型的能力本质与极限 - 大模型推理的本质是通过预测下一个Token,实现时间序列维度上的Granger因果推断 [38] - Granger因果定义了一种基于预测能力的时间顺序统计关系,但并非真正的因果关系 [38] - 因此,大模型的能力极限是时间序列维度的Granger因果推断,Scaling Law仍会延续,但模型不会从数据中自主抽象概念、符号化,也不具备真正的逻辑推理能力 [8][38] 相关技术发展与挑战 - Mamba/Mamba2等线性注意力机制虽降低计算量,但难以有效建模Token间的语义非对称性,导致模型能力打折,因此如Qwen3-Next等模型采用了混合注意力机制 [32] - 在保持语义非对称建模能力前提下降低计算复杂度是研究热点,DeepSeek-V3.2应用的DSA稀疏注意力机制是当前代表 [32] - 最优稀疏注意力可转化为一个为每个位置i求解的优化问题 [32] 续篇研究方向 - 第二篇将深入探讨向量自回归时间序列与大模型之间的深刻联系,将自然语言处理问题转化为信号处理问题 [43] - 第三篇将以信息论中的定向信息为核心,探讨与结构无关的、更抽象的大模型第一性原理 [43] - 信息论中的传递熵是衡量Granger因果性的工具,对于向量高斯自回归过程,传递熵与Granger因果等价,且传递熵是定向信息的有限长度版本 [40][41]
MiniMax 闫俊杰和罗永浩四小时访谈:走出中国AI的第三条路,大山并非不可翻越
36氪· 2025-12-11 16:11
公司核心战略与理念 - 公司创始人认为,在AI大模型时代,真正的产品是模型本身,传统意义上的产品更像是渠道,模型不够聪明,产品做得再好也无用 [2] - 公司从创业第一天起就选择了一条与主流背道而驰的技术路径,其故事并非关于天才的灵光乍现,而是一场关于如何在资源受限的缝隙中,通过极度理性地计算与修正,撕开一道通往AGI窄门的精密实验 [2] - 公司内部将互联网行业奉为圭臬的DAU(日活跃用户数)直接定义为“虚荣指标”,并正在进行一场认知修正:不再沿用移动互联网通过大规模投放换取增长、堆砌功能留住用户的逻辑,而是回归本质,把模型当作最重要的产品 [1] - 公司坚持三个创业原则:第一,不做项目,只做用户;第二,国内海外同时做;第三,坚持技术驱动而非用户增长优先,哪怕这意味着短期数据的牺牲 [16][17][20] 技术路径与创新 - 公司在资源受限的前提下,技术路线的统一逻辑是:用更聪明的方式优化,而非更多的算力堆砌,来逼近AGI的上限 [3] - 创业第一天就押注全模态,认为真正的AGI一定是多模态的输入与输出,这种非共识的坚持让公司在2025年拥有了全球音频第一、视频第二、文本稳坐第一梯队的全模态能力 [3] - OpenAI的Sora 2通过多模态融合取得显著成果,印证了公司早在创业初期就选择这一技术路径的前瞻性 [5] - 公司打破AI研究的传统模式,不迷信过往经验,而是用第一性原理拆解问题,认为这代AI的核心是Scaling(缩放定律) [6] - 算力限制倒逼创新,公司从2023年起就率先探索MoE架构,在2025年敢于押注线性注意力机制,又在M2模型中回归全注意力机制,每一次技术选择都是在有限资源下寻找质量、速度、价格的三角平衡 [8] - 公司在模型推理机制上提出了“交错思维(Interleaved Thinking)”,这一创新很快推动了OpenRouter、Ollama等国外主流推理框架的适配支持,也带动了Kimi和DeepSeek等国内模型陆续补齐类似能力 [10] 资源与效率对比 - 创始人算过一笔账:美国最好公司的估值是中国创业公司的100倍,收入基本上也是100倍,但技术可能只领先5%,花的钱大概是50到100倍之间 [7] - 中国的公司可以花美国公司1/50的钱就做出效果,差距可能只差5%,核心原因是中国的人才非常好,且由于算力差距,必须用更加创新的方式才能达到同样效果 [7] - 如果说DeepSeek的逻辑是“用极致的工程优化榨干每一分算力”,那么公司就是在通过算法突破和机制创新在有限资源中撬动更大可能 [8] 团队与文化 - 公司相信AI不是玄学,而是可以被第一性原理拆解的工程问题,因此放弃了寻找“天才”,转而相信科学方法论可以让普通人发挥非凡价值 [10] - 公司的海归不少,但真正能起到关键作用的同学,很多人基本上都是第一份工作 [10] - 公司会议室墙上有“Intelligence with Everyone”的字样,这是创始人创业的初衷,也是不少人选择加入公司的理由 [10] - 创始人出身河南小县城,在资源匮乏的环境下培养了极强的自学能力,并从在商汤科技的经历中提炼出核心方法论:一定要做取舍,要选更加长期、能够根本性发生变化的东西,而不是去做修补的东西 [14] - 创始人具备极致的取舍能力和极高的心理韧性,这两个特质是公司能够在技术路线上坚持非共识的定力来源 [15] 市场与商业化 - 公司从创业第一天就瞄准全球市场,选择在海外更激烈的竞争中打磨技术,而非卷入国内与巨头的流量争夺,其在海外市场的DAU和付费率都维持在健康区间,这正在成为其护城河 [17][19] - 全球超过两百个国家和地区的用户正在使用公司的多模态模型,其中既有2.12亿用户,也有10多万企业和开发者来创造更多产品和服务 [12] - 公司选择了技术驱动的战略,并做出开源的关键选择,创始人认为开源可以让公司有独特的定位,发出新的生态,并让别人有选择公司的理由 [20] - 公司发布的MiniMax M2延续了中国AI在开源领域的领先地位,中国开源模型在全球使用量占比从2024年初的1.2%飙升至30%,全球开源生态的重心已经向中国倾斜 [21][23] 行业格局与展望 - 创始人判断,算力和芯片的物理限制决定了模型参数量和成本是有天花板的,在有限的参数量下,不同的人做不同的取舍,就一定会有些不一样的成果 [23] - AI行业不会一家独大,但也不会百家争鸣,最终会收敛到少数几家基于不同取舍的共存格局 [24] - 创始人展现出务实的乐观,认为把技术做好最重要的东西是想象力和自信,并指出中国人工智能行业目前还没有到引领的地步,但这件事已经越来越具备了 [24] - 中国AI公司需要走出第三条路:用更聪明的架构设计对抗算力差距;通过科学的组织进化培养AI原生人才;在夹缝中长出自己的形状,而非附庸于巨头 [24]
资深科技投资者:如果没有Scaling Law的突破,2024年AI就崩了
华尔街见闻· 2025-12-10 16:26
文章核心观点 - Gemini 3模型的发布证明大模型的扩展定律依然有效 在硬件算力受限的窗口期 AI通过新的推理机制实现了能力跃升 支撑了当前科技股的高估值 [1] - 行业已跨越单纯依赖堆砌显卡的增长瓶颈 进入通过逻辑推理与验证实现价值跃升的新阶段 未来当新定律运行在更强硬件上时 AI能力将迎来再次爆发 [5] 关于扩展定律的验证与意义 - Gemini 3的发布具有里程碑意义 明确证实了预训练扩展定律仍然有效 [2] - 该定律此前更多是一种经验观察 其原理并未被完全理解 [2] - 对投资者而言 每一次对扩展定律的确认都至关重要 若其失效 海量资本支出将无法转化为更强的智能表现 [2] - Gemini 3证明即便在现有硬件架构下 通过增加算力和数据 模型基座能力依然在提升 [2] 硬件断档期的挑战与应对 - 英伟达下一代芯片Blackwell面临科技史上最复杂的产品过渡与延迟 导致硬件算力出现“断档期” [1] - 若非模型推理能力及时涌现 全球AI产业本将在2024年中期至Gemini 3发布期间陷入完全停滞 并可能引发资本市场剧烈动荡 [1] - 在过去几个月没有真正下一代算力上线的情况下 AI的进步主要依赖于两类新方法 [1] 推动AI进步的两大新技术路径 - 带有验证奖励的强化学习 只要有明确的对错结果 AI就能通过强化学习自我进化 [4] - 测试时计算 让模型在回答问题前“思考”更长时间 通过消耗更多的推理算力来换取更高的智能表现 [4] - 这两项技术让模型在现有硬件上实现了智能水平的显著提升 [1] - 这两大定律在英伟达Blackwell缺席的情况下 强行延续了摩尔定律般的增长 填补了硬件迭代的空窗期 并具有乘数效应 [3] 推理能力带来的智能飞跃 - 让全球市场躲过硬件真空期劫难的是“推理”能力的出现 [3] - 根据ARC AGI基准测试数据 AI智能水平在过去四年里仅从0进展到8% [3] - 在OpenAI推出首个具备推理能力的模型后 短短三个月内就从8%飙升至95% [3] - 这一飞跃源于两条新的扩展定律 [3]
当千亿参数撞上5毫米芯片
钛媒体APP· 2025-12-10 11:19
文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模,转向解决端侧AI的工程化难题,以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战,行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒,不再盲目追求参数之“大”,而是转向追求应用落地之“实”,致力于将AI嵌入万物,实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转,工程界开始重点攻克“端侧AI”命题,目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构:云端处理复杂长尾问题,端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战:高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛,主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB,而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化:知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**:让云端超大模型(Teacher)将核心逻辑“传授”给端侧小模型(Student),使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**:通过训练后量化或量化感知训练,将模型权重从FP16压缩至INT8甚至INT4,使模型体积压缩4倍以上,推理速度成倍提升[10] - **结构剪枝**:剔除神经网络中对输出影响微乎其微的冗余参数,从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”,传统冯·诺依曼架构下,超过80%的功耗消耗在数据搬运上,即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈,核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**:拉近存储与计算单元的物理距离,甚至在SRAM中直接计算,减少数据搬运开销[13] - **异构计算调度**:在SoC内精细分工,CPU负责流程控制,DSP负责信号处理,定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**:针对Transformer核心的Attention机制,在硅片上直接“刻死”加速电路,牺牲通用性以换取极高效率,实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新,已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”,承认AI局限性,打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略,搭建模型生产平台,让医院基于自身高质量数据训练针对特定病种的专用模型,将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海,通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片,赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实,需要的算力更少,但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒,转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来,体积缩下去,使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”,不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时,智能时代的奇点才算真正到来[18]