Scaling Law
搜索文档
当千亿参数撞上5毫米芯片
钛媒体APP· 2025-12-10 11:19
文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模,转向解决端侧AI的工程化难题,以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战,行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒,不再盲目追求参数之“大”,而是转向追求应用落地之“实”,致力于将AI嵌入万物,实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转,工程界开始重点攻克“端侧AI”命题,目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构:云端处理复杂长尾问题,端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战:高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛,主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB,而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化:知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**:让云端超大模型(Teacher)将核心逻辑“传授”给端侧小模型(Student),使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**:通过训练后量化或量化感知训练,将模型权重从FP16压缩至INT8甚至INT4,使模型体积压缩4倍以上,推理速度成倍提升[10] - **结构剪枝**:剔除神经网络中对输出影响微乎其微的冗余参数,从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”,传统冯·诺依曼架构下,超过80%的功耗消耗在数据搬运上,即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈,核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**:拉近存储与计算单元的物理距离,甚至在SRAM中直接计算,减少数据搬运开销[13] - **异构计算调度**:在SoC内精细分工,CPU负责流程控制,DSP负责信号处理,定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**:针对Transformer核心的Attention机制,在硅片上直接“刻死”加速电路,牺牲通用性以换取极高效率,实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新,已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”,承认AI局限性,打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略,搭建模型生产平台,让医院基于自身高质量数据训练针对特定病种的专用模型,将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海,通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片,赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实,需要的算力更少,但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒,转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来,体积缩下去,使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”,不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时,智能时代的奇点才算真正到来[18]
月之暗面迎来一名女总裁
华尔街见闻· 2025-12-09 21:01
公司核心动态:月之暗面(Kimi)的战略与商业化 - 前金沙江创投主管合伙人张予彤以“Kimi总裁”新身份公开亮相,负责公司整体战略与商业化,包括融资与新产品开发 [1][2] - 公司推出付费会员服务“OK Computer”模式,旨在让用户为节省时间和解决复杂问题的能力付费,打破国内大模型长期免费的传统,是从烧钱换量转向价值变现的关键举措 [6] - 公司最新一轮融资已接近收尾,估值有望冲至40亿美元,并有IPO计划 [6] - 面对用户增长瓶颈,公司收缩了投放预算,策略从“烧钱换量”转向依靠“技术溢价”路线 [4][6] 公司技术能力与市场地位 - 公司最新的开源思考模型Kimi K2 Thinking在HLE和BrowseComp等基准测试中刷新了SOTA记录,据称超越了GPT-5和Grok 4等顶尖模型 [4] - 公司技术底牌包括Muon二阶优化器,首次在万亿参数模型上验证了可行性,使Token效率提升了2倍 [4] - 全球顶尖AI搜索应用Perplexity在其模型列表中,除闭源模型外,唯一接入的就是Kimi K2 Thinking [4] - 公司强调即便只有海外巨头1%的资金和人员投入,依然能重写训练范式,以回应市场对其“后劲不足”的担忧 [3][4] - QuestMobile数据显示,Kimi月活用户数从去年底的2101万下滑至今年三季度末的967万,而同期豆包和DeepSeek月活破亿 [5] 行业竞争格局与趋势 - 中国AI市场呈现清晰的“双寡头”特征:字节跳动的豆包依靠抖音生态日活达5000万,深度求索(DeepSeek)以极致的技术效率和低价策略击穿行业底线,两者切走近半壁江山 [8] - 阿里千问、月之暗面、智谱AI、MiniMax等“六小虎”被夹在巨头生态霸权和DeepSeek的成本优势之间,单纯靠聊天机器人已不足以确立生存空间,进入差异化生存的淘汰赛 [8] - 行业从“百花齐放”固化为“阶层分化”,靠PPT融资的“草莽时代”已结束,下半场是关于获客成本、用户生命周期价值和毛利率的冷酷计算 [8][10] - 大模型公司资本化进程加速,智谱AI已在北京证监局备案辅导,MiniMax也传出IPO规划,给同行带来巨大心理压力 [9] 行业参与者战略调整 - “六小虎”开始痛苦变阵:百川智能重新聚焦医疗垂直领域,试图避开通用模型的竞争;零一万物放弃了万亿参数超大模型研发,转而拥抱DeepSeek模型做To B应用 [8] - 分析师认为大模型市场不会赢家通吃,而是分层共存,在政府、金融等强调安全可控的场景以及企业垂直领域仍有发展机会,关键看商业化落地路径 [9] - 随着基础大模型能力提升,垂直领域在未来1-2年里会有较好的变现机会 [9]
Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?
AI前线· 2025-12-09 14:26
文章核心观点 - 大模型正推动搜索、广告与推荐系统进行全链路智能重构,但当前行业距离端到端的统一pipeline仍有较大差距,更多工作集中在pipeline的单点与大模型结合[4] - 搜广推场景中的scaling law依然成立且处于快速上升阶段,但需在模型规模、收益与算力/时延成本间找到平衡[4][17] - 落地策略应务实,低价值场景用小模型覆盖,高价值场景用大模型争取额外收益,技术革命是逐步积累的过程[4][19] 大模型对搜广推的改变 - **特征工程变革**:大模型(尤其是大语言模型)为特征构建提供了更丰富的补充,能生成标签化或向量化的语义特征,减少线上模型对统计类、交叉类特征的依赖,提升推理效率[6] - **数据与样本构建的系统化转向**:从传统特征工程转向更系统化的数据与样本构建,需要大量基础性工作(如数据清洗、高质量思维链样本构建、多模态语义对齐)来确保大模型发挥价值[8] - **能力聚焦于语义理解与推理**:大模型的核心价值在于强语义理解和一定程度的推理能力,适合传统算法语义理解弱或逻辑链路长的任务(如电商从兴趣到决策的长链路),而非毫秒级短反馈链路[10] 系统架构的演进路径 - **渐进式叠加而非全面重构**:由于全面重构pipeline成本高且收益难量化,行业普遍采取在现有pipeline环节(如特征工程、召回、重排)逐步叠加或替代大模型能力的渐进策略[9] - **端到端方案当前收益有限**:期望大模型端到端输出推荐/搜索结果的做法在多数场景中无收益甚至负向,因此需系统性拆解问题,在各环节单独验证收益[10] - **当前处于“多点突破”阶段**:行业与学界均未实现一体化推荐链路,更多工作是在pipeline的单点与大模型结合,属于多点突破而非全链路重构[12] 搜广推场景中的Scaling Law - **Scaling Law明确成立且未达上限**:搜广推领域的模型同样存在scaling law,且边际效益远未触及上限,尚未像大语言模型那样出现明显边际递减[13] - **有效参数规模比总参数规模更关键**:研究发现,小模型能力不足常因有效参数比例低,当有效参与推理的参数规模扩大时,性能提升趋势明显[15][16] - **存在通用规律但受约束限制**:推荐领域可以研究通用的scaling规律(如提出的P-law),但线上推理受实时性(如300毫秒预算)、算力与工程成本约束,限制了模型规模的线上释放[14][15][17] - **放宽约束后效果显著提升**:实验表明,若放宽实时限制(如允许3-30秒推理)并使用更大规模模型(如200B–300B),或放宽输入限制(纳入丰富描述),模型效果有显著提升[16] 模型规模、收益与成本的平衡 - **分层策略**:低价值场景使用小模型或通用小模型覆盖;高价值场景(如开屏、信息流、搜索核心位)在ROI能覆盖成本时,才使用更大规模模型争取额外收益[18][19][20] - **优化小模型能力**:通过模型蒸馏、分层剪枝、MoE机制减少激活参数量来降低线上成本[18];或利用大模型生成更高质量的训练数据,帮助小模型突破性能瓶颈[19] - **ROI是核心决策依据**:模型是否合格取决于在特定场景中能否达到目标效果,关键在于资源的最优分配,而非一味追求更大规模[19][20] 工程挑战与应对经验 - **实时数据与模型快速迭代的难题**:搜广推高度依赖用户实时数据,传统模型可分钟/小时级更新,但大模型训练推理在线下,同步更新困难,需设计高效数据流pipeline并探索部分参数冻结等增量更新方式[21][22] - **离在线不对齐与新模型上线难**:离线表现良好的新模型,因在线模型长期积累历史数据,或线上环境存在结构性误差,常难以在短期内打败旧模型[22][34] - **模型适配与线上Serving的高成本**:开源模型与业务数据、训练平台、线上serving的时延资源要求存在巨大适配gap,且模型结构微调常需重写线上serving图,迭代成本高[23] - **解决方案探索**:开发多智能体强化学习模拟器构建沙箱环境,让新旧模型在模拟中对比以获得更客观评价;对于新旧模型差距,需判断新模型的scaling潜力,或通过AB实验检验其随时间收敛的能力[24][25][35] 生成式能力的应用与未来展望 - **当前应用集中于内容理解与生成**:生成式技术在多模态广告/营销素材自动生成、创意文案、会议纪要生成等辅助任务上已大规模应用[27][28][29] - **向核心业务环节渗透**:正在探索生成式推荐承担全流程线上推断的可能性,以简化工程体系并提升效果;也在尝试用于item筛选、广告策略规划等更核心任务[27][29] - **未来期待高度灵活的智能体**:当前智能体多基于人工预设workflow,未来期待具备自主规划与研究能力,能在更少人工干预下完成复杂任务[30] 大模型时代搜广推系统的生态与团队影响 - **特征工程可能被知识工程取代**:模型可能直接基于用户原始行为语料构建,并通过大模型构建的知识库等增量知识补充信息,以应对冷启动等问题[30] - **智能体将扮演更重要角色**:特征工程或模型训练流程可能以智能体编排方式推进,算法工程师角色可能向“跑模工程师”演变[31] - **需明确基础模型与任务定义**:需厘清搜广推基础模型的决策机制(如如何处理离散ID),并形式化定义任务边界与结构,才能使智能体有效工作[31] - **业务场景定义差异大**:不同环节(召回/粗排 vs 精排/重排)所需辅助信息不同,涉及item关系、用户兴趣变化、多样性指标及多模态信息等[32] 实践中的认知转变与建议 - **认知转变:序列建模成为核心方向**:曾认为语言Token建模不完全适用于推荐,但HSTU等序列模型的出现展示了处理用户长行为序列的潜力,成为推荐领域的核心方向[36][37] - **数据是决定性因素**:业界共识是“有多少人工,就有多少智能”,高质量数据是工业场景中发挥模型能力的基础,需沉淀专业化的知识工程体系[38] - **重新思考推荐系统解决的用户问题**:推荐系统需根据用户不同意图状态(如随意浏览、明确搜索、深度对比)调整策略,利用大模型的推理能力辅助用户决策[38] - **给从业者的建议**:拆解业务链路,找到与大模型结合的合适切入点,不必过度关注短期效果爆发,重视逐步积累[39];不设过强边界,所有核心业务问题最终都需被解决[41];思考自身场景的优势与差异化能力,构建产品力与生态价值[40]
新力量NewForce总第4919期
第一上海证券· 2025-12-08 20:09
石药集团 (01093) 公司研究 - 2025年前三季度营收198.9亿元人民币,同比下降12.3%,调整后归母净利润下降15.2%[6] - 成药板块收入154.5亿元人民币,同比下降17.2%,其中神经系统收入56.7亿元(占比40.8%),肿瘤板块受集采影响收入下降56.8%至16.5亿元[6][7] - 公司承诺下半年派息不低于上半年(14港仙),并加大研发,研发费用占成药收入比同比上升6.3个百分点至27.1%[6] - 通过DCF估值(WACC 10%,永续增长3%)得出目标市值1165亿港元,目标价10.03港元,对应2025年市盈率25.2倍[9] 科技行业周报 - AI算力需求从训练侧转向推理应用驱动,谷歌预计未来4-5年算力需实现1000倍增长,2026年算力将非常紧张[12][13] - 光模块需求旺盛,预计2026年1.6T光模块出货量乐观情况下超过2500万只,800G光模块出货超过5500万只[14] - 国产算力关注度提升,摩尔线程上市首日市值达2822.5亿元人民币,沐曦股份拟募资39亿元人民币[16] - 建议关注国产算力芯片供应商(如寒武纪)及上游晶圆代工厂(如中芯国际、华虹半导体)[17]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
持续看好AI链,关注存储周期影响
华泰证券· 2025-12-05 17:05
核心观点 - 2026年电子行业主线为AI链、存储周期上行及自主可控加速,持续看好AI数据中心拉动的存储涨价周期、全球头部CSP厂自研ASIC落地带动高端PCB需求、国内代工厂及存储IDM扩产受益上游设备商、消费电子端侧AI创新催化产业链 [1] - Scaling Law进入2.0阶段,从预训练拓展至后训练与推理,推动算力需求持续增长,互联组件(光模块/交换机)因GPU集群规模扩大呈现非线性增长 [2][18] - 存储周期受AI数据中心需求拉动及供给受限影响,4Q25 DRAM/NAND价格环比涨幅扩大至23%-28%/5%-10%,预计1H26价格进一步上行 [3][91][92] - 自主可控趋势下,国内晶圆厂加速先进制程产能扩张,2.5D/3D封装市场2025-2029年CAGR达25.8%,存储芯粒国产化带动刻蚀/沉积设备需求提升 [4][111][120][146] AI链:Scaling Law与算力需求 AI模型演进 - Scaling Law从预训练扩展至后训练(强化学习、思维链)和推理阶段,头部模型训练数据量从15T tokens提升至30T以上(如Qwen系列达36T tokens)[18][24] - 海外路径依赖算力投入(如Grok 4后训练算力较Grok 3扩大10倍),国内聚焦架构优化(如DeepSeek动态稀疏注意力、Kimi Muon优化器降低50%算力成本)[31][32] 互联组件需求 - AI算力扩张催生Scale-out(集群互联)、Scale-up(内存池化)、Scale-across(跨数据中心)三大互联需求,DCI市场规模预计从2023年10亿美元增至2028年30亿美元(CAGR 25%)[36][56][59] - GPU数量增长驱动互联组件非线性需求:GPU达4096个时,交换机/GPU比例从4.7%升至7.8%,光模块/GPU比例从2.5倍升至3.5倍 [42][43][45] AI芯片与PCB - 全球八大CSP厂商2026年资本支出预计达6000亿美元(同比增40%),2030年GPU市场规模4724亿美元(2024-2030年CAGR 35.19%)[59][60][63] - AI服务器PCB需求向高多层(14层以上)、高阶HDI迭代,2024年全球AI/HPC领域PCB市场规模60亿美元,2029年预计150亿美元(CAGR 20.1%)[73][76][77] - 2026年算力PCB需求预计达1000亿元,ASIC板卡贡献300亿元增量,CCL材料向M8/M9升级支持单通道224Gbps传输 [86][82] 存储周期:供需结构与价格趋势 价格与供给 - 海外原厂4Q25涨价函频出:美光DRAM涨价20%-30%,三星LPDDR5系列涨15%-30%,闪迪NAND 11月涨价50% [91] - HDD供应短缺(交期52周)加速企业级SSD渗透,2026年DRAM/NAND资本支出增幅保守(14%/5%),产能转向HBM等高附加值产品 [99][100][101] 需求拉动 - 2024年企业级SSD/HBM市场规模262/200亿美元,2027年预计达351/488亿美元(CAGR 10.2%/34.6%)[103][104][105] - AI推理应用拉动NAND需求,KV Cache缓存需求增长(如LLaMA-2-13B模型并发10请求需31.25GB容量),华为等厂商推出AI SSD构建三级缓存体系 [106][107][109] 自主可控:制造、封测与设备 制造与封测 - 中国大陆晶圆厂在成熟制程份额提升(中芯国际/华虹/晶合跻身全球前十),但先进制程份额仅8%(2023年),预计2027年美国份额升至21% [111][112][113] - 2.5D/3D封装市场高速增长,全球/中国芯粒多芯片集成封装2025-2029年CAGR为25.8%/43.7%,台积电CoWoS/SoIC产能加速扩张 [120][124][125][129] 设备技术迭代 - DRAM向3D架构演进,4F²+CBA方案成为方向,Yole预计2029年CBA-DRAM占DRAM产量29% [134][138][143][144] - 3D NAND层数向300层以上突破,刻蚀/沉积设备价值量提升(如高深宽比刻蚀、PE-HARP工艺),国产设备商受益存储扩产 [146][147][148] 消费电子:压力与创新 - 存储涨价使安卓手机/PC产业链承压,出货量可能同比下滑,零部件利润率受挤压,苹果链受影响较小 [5] - 2026年折叠屏、AI/AR眼镜、OpenAI硬件等新品催化行业,苹果可能推出折叠屏及Apple Intelligence功能,AR产品拐点临近 [5][32]
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 12:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]
ChatGPT三岁生日,谷歌却为它准备了“葬礼”
虎嗅APP· 2025-12-03 07:55
文章核心观点 - ChatGPT发布三年后AI行业格局发生颠覆性变化,谷歌Gemini 3的强势崛起对OpenAI形成巨大竞争压力[8][9][17][34] - AI技术演进从纯文本对话发展到多模态应用爆发,彻底重塑人类生产效率和社会结构[28][29][33][34] - OpenAI采用独特的融资模式,通过合作伙伴承担近1000亿美元债务来支撑算力扩张,自身财务风险极低[53][54][55][63] 人类被改写的三年 - 2022-2023年:ChatGPT突破图灵测试防线,主要特点是"对话"交互,Prompt Engineering成为热门技术但迅速被AI自身能力瓦解[24][25][27] - 2024-2025年:多模态AI爆发,GPT-4o、Midjourney等模型具备图像、音频、视频处理能力,Vibe Coding和Cursor等工具重塑生产关系[28][29][33] - 2025年成为"奇点体验年",谷歌Gemini 3的卓越表现引发行业格局变化[34] 谷歌重生,OpenAI变天 - 谷歌Gemini移动应用月活用户从5月约4亿激增至6.5亿,用户使用时间已超过ChatGPT[37][39] - 行业领袖评价发生逆转,Hugging Face联合创始人称"天已经变了",Salesforce CEO表示"回不去了"[42][43][44] - OpenAI面临多重压力,内部员工感到竞争压力,公司产品线扩张过快可能影响专注度[46][48][49] OpenAI的独特融资模式 - 合作伙伴为OpenAI承担近1000亿美元债务,相当于全球六大企业借款人净债务总和[53][54][58] - OpenAI自身账上几乎没有欠款,仅拥有40亿美元信贷额度且未动用[55] - 具体债务分布:甲骨文/Vantage债务380亿美元,软银债务200亿美元,CoreWeave债务超100亿美元[53][60][61] - 甲骨文已发售180亿美元债券,未来四年可能还需借款1000亿美元完成OpenAI合同[64] 技术演进对比 - GPT系列性能持续提升:GPT-5在速度、推理能力、token效率、准确性和上下文保留方面均达到最佳水平[23] - OpenAI计划未来8年投入1.4万亿美元用于算力建设,与英伟达、甲骨文、AMD等达成巨额交易[49] - 技术发展带来社会影响:CS课程教授开始教"不写一行代码的"编程课,企业开始大规模裁员[11]
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 19:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]
从芯粒到机柜:聊聊大模型浪潮下的开放互连
半导体行业观察· 2025-12-02 09:37
文章核心观点 - AI大模型发展重心从预训练扩展转向推理时扩展,对基础设施的低延迟和高吞吐提出新要求[8] - 面对NVIDIA私有互连技术的垄断,行业需要拥抱开放互连标准以实现供应链健壮性和技术优化空间[9][10] - 开放互连技术体系UCIe/CXL/UAL/UEC覆盖从芯粒互连到Scale-out网络的全链条,是构建AI基础设施核心竞争力的关键[10] - 阿里云作为中国大陆唯一代表,深度参与UCIe、CXL、UAL等核心标准制定,在开放互连生态中占据有利地位[2][4] 开放互连标准发展背景 - 2019年3月CXL联盟成立,旨在解决异构XPU编程和内存扩展挑战[4] - 2022年3月UCIe联盟成立,致力于建立开放的Die-to-Die互连标准[4] - 2023年7月UEC联盟成立,目标为AI和HPC重建高效开放的以太网[4] - 2024年10月UAL联盟成立,应对模型尺寸和推理上下文增长对Scale-up网络的需求[4] Scaling Law三个阶段 - 预训练扩展:通过增加模型参数、训练数据量和计算资源提升基础模型精度[5] - 后训练扩展:通过微调、RLHF和蒸馏等手段使模型输出更专业和符合人类习惯[5] - 推理时扩展:通过生成更多辅助推理的token提升输出质量,如CoT Prompting和Sampling and Voting[5][6] - 当前扩展重心已转移到推理时扩展,对延时指标和吞吐指标有刚性需求[8] UCIe技术分析 - 基于芯粒的设计通过提升良率、制程节点优化、芯粒复用和市场化四个层面解决成本问题[11][15] - 芯粒设计突破光罩尺寸限制,NVIDIA Blackwell采用2 Die合封,Rubin Ultra采用4 Die合封[14][17] - UCIe物理层目标延时<2ns,先进封装单模组带宽达256GB/s[18][19][23] - UCIe-3D采用混合键合技术,bump pitch仅9μm,远低于2D/2.5D封装的25-55μm[25] - UCIe支持光电共封,为AI集群互连提供低成本、高灵活度解决方案[26][27] CXL技术特性与应用 - CXL 3.2支持64GT/s链路速率,256字节Flit格式,多级交换和全局集成内存等特性[33] - 内存扩展和池化为LLM推理系统提供分层缓存体系,缓解KV Cache存储压力[34][40] - 全局集成内存实现Host间一致性内存访问,为AI基础设施提供内存共享能力[34][39] - CXL在RAG向量数据库中可通过内存池化创建常驻内存数据库,或利用存内计算提升查询效率[40] UAL协议架构 - UAL采用四层协议栈,物理层复用IEEE802.3dj以太网PHY,实现200Gb/s传输速率[43][45] - 支持内存语义操作,避免RDMA编程模式的Doorbell/Interrupt延时开销[44] - 通过Credit-based流控和链路层重传实现无损传输,减少长尾延时[54] - 支持最多1024个节点的超节点Scale-up网络,采用PGAS编程模型实现全局内存空间[50] UEC协议创新 - 短时连接动态创建Packet Delivery Context,解决RDMA网络规模扩展性问题[59] - 多路径和包喷洒技术使同一流中的数据包可走不同路径,提升带宽利用率[62] - 支持乱序包交付与顺序消息交付,提供四种传输模式应对不同场景需求[63] - 拥塞控制综合ECN标识和RTT测量,结合接收端信用控制实现高效管理[64] - 安全子层通过安全域共享密钥和重放攻击防护机制保障数据传输安全[67] Scale-up域边界分析 - 模型参数增长放缓,但KV Cache内存需求持续增加,对内存容量提出更高要求[70][74] - NVIDIA Rubin Ultra显存容量预计达约1TB,算力达100 PFLOPS@FP4[75] - 华为昇腾960算力为4 PFLOPS@FP4,显存288GB,与NVIDIA存在显著差距[75] - 中美AI集群形态差异:美式集群Scale-up域锚定单机柜,中式集群需多机柜扩展[76] - Scale-up集群规模将经历扩大再收缩过程,最终回归单机柜超节点形态[76] CXL未来发展前景 - CXL 3.1引入GIM概念,实现Host间一致性内存访问,功能上接近UAL[77] - PCIe Gen8速率将达256GT/s,但需等到2028年才可能集成到GPU[78] - CXL提供另一种集群组织形态:GPU通过CXL Switch连接CPU,实现统一内存空间[78] - 非NVIDIA GPU集成CXL可实现与Host的UMA,提升带宽利用率[78] - CXL生态系统成熟后,可能成为AI基础设施的重要技术路径[78]