大模型推理
搜索文档
GPU创企曦望一年融资30亿:出身商汤,押注推理
观察者网· 2026-01-22 21:13
公司融资与资金用途 - 曦望(Sunrise)在一年内完成近30亿元人民币融资 [1] - 投资方包括华胥基金、范式智能、杭州数据集团等产业资本,IDG资本、高榕创投、无极资本等VC/PE机构,以及诚通混改基金、杭州金投、杭州高新金投等国资背景资本 [1] - 所筹资金将用于下一代推理GPU研发、规模化量产及生态共建 [1] 公司背景与团队构成 - 公司成立于2020年,前身为商汤科技大芯片部门,于2024年底分拆独立运营 [1] - 公司专注于高性能GPU及多模态场景推理芯片的研发与商业化 [1] - 公司正式员工超200人,技术和研发人员占比80%以上 [1] - 部分员工来自AMD、百度、华为海思、商汤等行业龙头,核心技术骨干平均拥有15年行业经验,硕士及以上学历占比超过80% [1] - 董事长徐冰曾任商汤科技联合创始人,负责集团战略与资本运作,带领商汤完成累计超66亿美元融资及港交所IPO [1] - 联席CEO王勇拥有20余年芯片行业经验,曾任AMD dGPU首席架构师、百度昆仑芯核心架构师,主导多款7nm高性能芯片从研发到流片及量产 [2] - 另一位联席CEO王湛曾任职百度十六年,为百度创始团队成员、前百度资深副总裁 [2] 技术路线与产品战略 - 公司选择“纯推理”路线,与英伟达等追求“训推一体”的传统GPU厂商不同 [4] - 公司在调度机制、缓存设计、片上SRAM、芯片互联及编译器路径等核心环节针对推理场景做原生深度优化,并融合LPDDR内存技术,以实现单位Token推理成本的显著降低 [4] - 公司目标是极致降低大模型推理的成本与门槛,让推理算力变得普惠,从而充分释放AGI的全部潜力 [4] - 公司宣称其技术能让推理成本下降90%,并提供更稳定的服务 [4] 研发投入与产品矩阵 - 公司在过去数年研发投入累计20亿元人民币 [4] - 已构建起三代芯片产品矩阵 [4] - 2020年量产的S1芯片是国内首款视觉推理芯片,适配千余种CV模型,已实现IP授权索尼、小米等头部客户 [4] - 2024年量产的S2芯片对标主流A/H系列GPU,兼容CUDA生态,已适配DeepSeek、Qwen等主流模型 [4] - 计划于2026年推出的S3芯片定位为“推理性价比之王”,目标在单位Token成本、能耗上实现数量级降低,原生支持FP8/FP4低精度推理,目标直指“百万Token一分钱”的行业新基准 [5]
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
量子位· 2026-01-22 19:13
文章核心观点 - 在大模型竞赛中,计算效率是关键瓶颈,单纯堆叠算力(显卡)已不足够,提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点,腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化,显著提升了核心算子性能,并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代,计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库(如FlashInfer、DeepGEMM)主要针对NVIDIA H800等高配训练卡优化,与国内主流线上推理服务采用的H20等推理卡不匹配,难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略(如Blockwise FP8)的需求日益迫切,亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点:1) 设计复杂,修改适配成本高,阻碍了量化算法等加速研究的创新落地 [11][12];2) 目标硬件不匹配,导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化,降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**:针对访存瓶颈算子,通过调整指令发射顺序进行数据预取优化,确保高数据传输利用率;针对不同问题规格做细致指令对齐,去除冗余指令,使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**:重新思考任务数据划分调度策略,保证任务均衡与cache连续性;采用persistent kernel隐藏开销;通过数据重排减少额外操作和显存占用,如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**:基于CuTe扩展开发vec抽象层统一负责高效数据搬运,利用Layout代数抽象隔离复杂的Tiling与计算逻辑,让开发者能聚焦于算法本身,降低维护门槛 [26] 性能提升数据 - **端到端推理性能**:在真实场景下,基于HPC-Ops,混元模型推理QPM(每秒查询数)提升30%,DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**: - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**: - **GroupGEMM**:在Batch<=64的低延迟场景下优势显著,较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**:在TP(张量并行)场景下相比TensorRT-LLM最大性能提升达1.49倍;在EP(专家并行)模拟均衡场景下最大提升1.09倍 [36] - **Attention**: - Prefill场景(输入长度128~64K):batch较小时,BF16精度下相比SOTA实现提升1.3倍;大batch时与SOTA对齐 [42][43] - Decode场景:BF16精度下提升1.35倍~2.22倍;FP8精度下,当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API,可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础,提供数百行代码即可构建SOTA算子的实践范例,降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子,以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核,通过融合多GPU间的计算与通信流程,大幅降低分布式推理场景下的通信开销,支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR,参与算子边缘场景优化、教程案例打磨等贡献,共同推动技术发展 [52]
30 亿融资砸向推理算力!目标:百万 Token 一分钱!
是说芯语· 2026-01-22 18:21
公司近期重大融资与战略意义 - 杭州GPU芯片企业曦望在一年内完成近30亿元人民币的战略融资 [1] - 融资资金将全部投向下一代推理GPU的研发、量产和生态搭建 [1] - 投资方阵容强大,形成产业、资本、国资三维加持:产业方包括三一华胥基金、杭州数据集团,提供场景与产业链资源;顶尖VC/PE如IDG资本、高榕创投、中金资本持续加码;国资如诚通混改基金入局,凸显公司在国家算力自主战略中的分量 [1] - 此轮融资为公司提供了从技术研发到场景落地、市场拓展的全链条支持 [2] 公司核心管理团队 - 公司由双CEO掌舵,构成黄金搭档 [3] - 联席CEO王勇是芯片行业20年老兵,曾任职于AMD、昆仑芯,并在商汤带领百人团队成功完成两代芯片的研发与量产,精通从架构设计到批量生产的全流程 [3] - 联席CEO王湛是百度创始核心成员、前集团副总裁,曾领导8000人团队负责百度搜索核心业务,于2025年初跨界加入,专注于产品化与商业化,运用互联网思维解决芯片落地难题 [3] 公司核心团队与技术实力 - 公司核心团队约300人,主要来自NVIDIA、AMD、昆仑芯、商汤等头部企业 [5] - 核心技术骨干平均拥有15年行业经验,团队掌握200多项核心专利 [5] - 团队曾创下百人团队“一次流片成功”的行业佳绩,技术硬核且商业落地迅速 [5] 公司产品战略与技术创新 - 公司采取差异化路线,精准卡位AI推理场景,而非主流的训推一体赛道 [6] - 针对推理场景重构原生GPU架构,对调度机制、缓存设计、片上SRAM配置等核心环节进行深度优化 [6] - 创新性融合LPDDR内存技术,从根源上降低单位Token的推理成本 [6] - 通过全栈自研的指令集、GPGPU IP和编译工具链,实现软硬件深度协同,打破“参数越高越好”的行业误区 [6] - 公司目标是极致降低大模型推理的成本和门槛,让算力变得人人可用 [7] 公司产品发展路线与里程碑 - 公司已构建覆盖视觉推理到大模型全场景的三代芯片矩阵 [8] - S1芯片于2020年量产,是国内首款视觉推理专用芯片,适配上千种CV模型,通过IP授权已服务于索尼、小米等大厂 [8] - S2芯片于2024年量产,对标主流A/H系列GPU,兼容CUDA生态,可适配DeepSeek、Qwen等主流大模型,实现了从专用芯片到通用推理芯片的跨越 [8] - S3芯片计划于2026年推出,原生支持FP8/FP4低精度推理,旨在将单位Token成本和能耗降低一个数量级,目标设定为“百万Token一分钱”的行业新基准 [8] - 公司为S3芯片投入了20亿元人民币的研发资金 [8] 公司生态合作与发展理念 - 公司定位为现有算力系统的“推理分流与成本优化层”,不搞零和竞争,旨在与本土芯片厂商深度合作,为客户搭建推理加速专区,实现互补共赢 [10] - 通过生态共建,整合行业资源以提升国产算力整体实力,致力于形成“应用越广→技术越精→成本越低”的良性循环 [10] - 公司从商汤科技大芯片部门独立,发展路径从专注视觉推理到覆盖全场景,精准踩中AI产业核心需求 [10] - 随着30亿融资到账和S3芯片即将量产,公司正通过技术创新与生态协同,在全球算力竞争中走出一条国产芯片的差异化道路 [10] - 在AI商业化浪潮中,推理成为核心抓手,公司的崛起有望重新定义国产算力产业格局,为千行百业提供普惠的推理算力,加速智能化转型与AGI时代到来 [10]
首发丨曦望完成近30亿元战略融资,All-in推理GPU
投中网· 2026-01-22 15:07
融资事件与行业趋势 - AI推理算力赛道公司曦望一年内完成近30亿元战略融资,投资方包括多家产业资本、知名VC/PE及国资背景基金 [2] - 本轮融资资金将主要用于下一代推理GPU研发、规模化量产及生态共建 [2] - 曦望连续获得多家机构投资,折射出AI产业从“训练红利”向“推理红利”切换的核心趋势 [2] - 当模型训练进入深水区,推理环节的效率、成本与稳定性已成为决定AI商业化能否落地的关键因素 [2] 公司背景与团队构成 - 曦望成立于2020年,前身为商汤科技大芯片部门,团队从诞生之初就贴上了“更懂AI的GPU芯片公司”标签 [4] - 联席CEO王勇为前AMD、昆仑芯核心架构师,拥有20年芯片研发经验,主导了曦望两代芯片的研发和量产 [4] - 联席CEO王湛为百度创始团队成员、原集团副总裁,曾带领8000人团队,于2025年初加入曦望负责产品化和商业化 [4] - 团队规模约300人,成员主要来自NVIDIA、AMD、昆仑芯、商汤等企业,核心技术骨干平均拥有15年行业经验 [4] - 同时具备芯片工程能力与大规模业务经验的团队结构,在强调“稳定交付与成本控制”的推理GPU赛道中十分稀缺 [4] 技术路径与产品矩阵 - 曦望选择差异化路径,围绕推理场景的成本与效率对芯片架构进行“重写”,而非在通用GPU参数上追赶 [6] - 公司在调度、缓存、片上SRAM、互联及编译器路径上进行推理场景原生优化,并结合LPDDR内存技术以降低单位Token推理成本 [6] - 公司采取全栈自研,覆盖指令集、GPGPU IP及编译工具链等关键环节,已累计持有200余项核心专利,并实现“一次流片成功” [6] - 过去数年研发投入累计20亿元,已形成三代芯片产品矩阵 [6] - 2020年量产的S1芯片为国内首款视觉推理芯片,适配千余种CV模型,已实现IP授权索尼、小米等头部客户 [6] - 2024年量产的S2芯片对标主流A/H系列GPU,兼容CUDA生态,已成功适配DeepSeek、Qwen等主流模型 [6] - 2026年即将推出的S3芯片定位为“推理性价比之王”,在单位Token成本、能耗上实现数量级降低,原生支持FP8/FP4低精度推理,目标直指“百万Token一分钱”的行业新基准 [6] 商业模式与市场定位 - 公司定位为AI产业的“损益表优化师”,其竞争不是“又一个芯片”,而是“重写中国AI产业的损益表” [8] - 公司认为推理能效、SLA稳定性与Token成本是决定业务毛利率与用户体验的核心指标 [8] - 公司选择不与训推一体GPU拼参数,而是聚焦真实场景的单位经济性,成为现有算力系统的“推理分流与成本优化层” [8] - 公司通过与本土芯片厂商合作为客户构建推理加速专区,形成独特的竞争生态 [8] - 公司的目标是极致降低大模型推理成本与门槛,让算力变得普惠且可广泛获取,从而释放AGI的全部潜力 [9] 行业影响与未来展望 - 曦望的崛起标志着国产AI芯片正从“跟跑”转向“差异化领跑” [9] - 随着AI推理红利的全面释放,当推理成为AI产业盈利的核心抓手,专注于降低推理成本的公司或将重塑中国AI基础设施的产业格局 [9]
暴涨近28%!黄仁勋一句话引爆存储股,机构称存储超级周期持续至2027年
金融界· 2026-01-07 08:49
市场表现与行情催化剂 - 存储芯片市场出现井喷行情,隔夜美股闪迪股价暴涨近28%,希捷和西部数据涨幅均超14%,美光科技大涨10% [1] - 行情的直接催化剂是英伟达CEO黄仁勋在CES上的言论,他指出存储市场“完全未被满足”,并断言其有望成为“全球最大的存储市场”,将成为AI的“工作内存” [4] 需求驱动因素与技术革新 - 人工智能,尤其是大模型推理,导致对数据存储的需求爆炸性增长 [4] - 英伟达提出一项关键技术革新,将高速存储(KV缓存)直接集成到GPU机架内的“context memory架构”,旨在解决因海量数据移动导致的网络拥堵问题 [4] - 随着模型上下文长度从十万级迈向亿级,所需存储空间呈几何级数增长,该革新为AI时代的存储需求提供了清晰、可量化的测算锚点 [4] 供应链紧张与价格预测 - 摩根士丹利分析师预测,闪迪核心NAND闪存价格将在2026年一季度上涨30%至35%,美光DRAM价格可能上涨40%至70% [5] - 美光CEO表示,供应紧张将持续到2026年后 [5] - 由于严重芯片短缺推动存储芯片价格大幅飙升,分析师预计三星电子2025年第四季度营业利润将同比飙升160% [5] - 行业分析机构TrendForce数据显示,第四季度DDR5 DRAM芯片价格同比暴涨314% [5] - TrendForce预计,本季度传统DRAM合约价格环比涨幅将达55%至60%,NAND闪存价格将上涨33%至38% [5] 行业周期与供给格局 - 原厂将大量先进产能转向利润更高的服务器及HBM领域,以满足AI服务器需求,导致传统消费电子、工业控制等市场的供给严重紧缩 [5] - 野村证券表示,这一轮始于2024年下半年的存储超级周期至少延续至2027年,真正有意义的新增供给最早要到2028年初期才会出现 [6] 投资前景与公司盈利 - 野村证券建议投资者在2026年继续超配存储龙头,将存储芯片价格、利润、估值三击作为投资主线,而非仅视为HBM单一题材 [6] - 野村证券预计三大存储芯片公司(三星电子、SK海力士、美光科技)盈利将创历史新高 [6]
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 文章是一位资深AI研究员对个人职业变动与年度研究方向的回顾与总结 其核心观点在于强调大模型推理效率提升与模型可解释性研究是当前及未来人工智能领域两个至关重要且充满前景的方向 同时分享了个人从大公司离职加入初创企业的职业选择 [3][5][6][10] 个人职业变动与感悟 - 作者于2025年1月底被要求加入Llama4项目进行“救火” 尽管项目最终结果超出其最初设想的四种可能 但在此过程中团队在强化学习训练的核心问题上进行了多项有价值的探索 [3] - 作者在Meta工作十年多后最终离职 尽管此前因经济和家庭原因多次犹豫 但最终将此次变动视为一个积极的转折点 并决定加入一家初创公司担任联合创始人 [4][5] - 作者回顾了2021年的一项工作 该工作起初未受关注但后来在ICML会议上获得了最佳论文荣誉提名 并成为表征学习领域一篇较知名的文章 [5] 大模型推理研究方向 - **连续隐空间推理**:作者团队在2024年末公开的连续隐空间推理工作(COLM‘25)在2025年引发研究热潮 随后团队在2025年上半年发表了一篇理论分析文章(NeurIPS‘25) 阐述了该方法的优势所在 [6] - **推理效率提升**:团队通过多项研究致力于提高大模型推理效率 - **Token Assorted(ICLR‘25)**:通过VQVAE学习隐空间的离散token 并将其与文本token混合进行后训练 在降低推理代价的同时提升了性能 [7] - **DeepConf**:通过检测生成token的置信度来决定是否提前终止推理路径 从而显著减少推理所用token数量 在多数投票场景下性能更优 [7] - **ThreadWeaver**:通过制造并行推理的思维链并进行后训练来加快推理速度 [7] - **其他尝试**:包括在dLLM上用强化学习训练推理模型 以及在小模型上学习推理 [7] 模型可解释性研究方向 - **关注动机**:作者认为无论人工智能通过规模扩展最终成功或失败 可解释性研究都至关重要 是确保AI向善或寻找替代方案的关键 且人类探索的天性也驱使其研究“黑盒” [10] - **Grokking(顿悟)现象**:作者团队通过分析Grokking这一从记忆到泛化的特征涌现现象 来探索模型学习的表征与数据结构的关联 2024年的初步工作(NeurIPS‘25)后 近期在可证明的缩放定律研究上取得较大突破 [8] - **RL与SFT行为差异**:作者团队年末的工作从权重层面解释了强化学习与监督微调行为不一致的原因 指出SFT因使用非当前策略数据导致权重主分量被大幅修改 引发灾难性遗忘 而RL使用当前策略数据 主要改变权重次要分量 避免了该问题 [9] - **研究现状与愿景**:作者指出当前通过寻找“电路”来打开模型黑箱仍处于初步阶段 真正的挑战在于从第一性原理解释模型为何会涌现出解耦、稀疏、模块化等特征 其愿景是实现从“收集证据”到“推导原理”的范式转变 最终指导下一代模型设计 [11]
田渊栋2025年终总结:救火Llama4但被裁,现任神秘初创公司联创
机器之心· 2026-01-04 16:05
文章核心观点 - 文章记录了Meta前AI科学家田渊栋被裁后的职业转变、2025年的核心研究方向以及对AI驱动下社会生产力与个人价值重构的深刻思考[1][2][3] - 核心观点认为,AI能力的飞速发展正在重塑社会结构,个人价值评估标准从自身劳动产出转变为“人加AI”能否超越AI本身,这导致职业价值出现类似“费米能级”的两极分化[20][23][27] - 在“遍地神灯”(强大AI智能体)的时代,真正稀缺的是人类的原创愿望、独立思考能力以及将宏大目标转化为现实的能力,这决定了个人能否保持在“费米能级”之上[28][29][33] 关于被裁与职业转变 - 田渊栋在2025年1月底被要求加入“救火”Llama 4项目,尽管团队在强化学习训练的核心问题上进行了多项探索,但项目结束后他仍被Meta裁员[4] - 被裁后收到了大量工作邀约,最终选择成为一家初创公司的联合创始人,并于2024年12月上任[6] 2025年主要研究方向 - **大模型推理**:其团队2024年末公开的连续隐空间推理(coconut)工作在2025年引发研究热潮,团队后续发表了理论分析文章《Reasoning by Superposition》(NeurIPS'25)[7] - **提高推理效率**:通过Token Assorted(ICLR'25)工作混合离散token与文本token以减少推理代价并提升性能;通过DeepConf提前终止低置信度推理路径以减少token使用;通过ThreadWeaver制造并行推理思维链以加速[8] - **打开模型黑箱(可解释性)**:重点研究Grokking(顿悟)现象,旨在理解模型从记忆到泛化的突变过程,近期在《Provable Scaling Laws》文章中取得突破[9] - **理解RL与SFT差异**:研究指出,监督微调(SFT)会导致权重主分量被大幅修改,引发灾难性遗忘,而强化学习(RL)使用on-policy数据训练,主要改变权重次要分量,从而避免该问题[10] AI驱动下的社会与生产力变革 - **生产力重构**:带思维链的推理模型成功让强化学习重回主流,并推动了AI4Coding及AI Agent发展,使大模型得以大规模落地并大幅提高生产力[15] - **工作模式转变**:AI可以24小时不间断工作,人类的工作重心转变为确保为AI提供足够的工作量(如用完每日剩余token数)并减少介入,让AI自主长时间工作[15][16] - **个人价值重估**:个人价值评估标准从“本人产出的劳动数量及质量”转变为“人加AI的产出是否大于AI本身”,导致投入-回报曲线变为类似soft-thresholding的曲线,存在一个能力阈值(费米能级)[20][23] - **社会两极分化**:低于“费米能级”的智能体(人+AI)供给过剩,价值极低;高于该水准的智能体则数量稀少且价值高昂,形成“一骑当千”的效应[25][27] - **“费米能级”上升**:这条能力水准线会随时间上移,其上移速度取决于能获取到的、比它更强的数据量,若训练过程有突破(如新合成数据手段),进展可能加速[27] 遍地神灯时代的独立思考与个人策略 - **新时代的稀缺品**:在AI能力充沛的“遍地神灯”时代,真正稀缺的是人类的“愿望”本身以及将愿望化为现实的坚持[28][29] - **独立思考的丧失风险**:大模型提供廉价思考结果,可能导致人们逐渐丧失原创能力,思想被生成式内容和推荐系统同化,成为精神上的“懒人”[29] - **保持独立的战术**:需要不断审视AI的答案、挑毛病并发现其无法解决的新问题;未来新价值来源于新数据发现、对问题的新理解以及新的可行创新路径[30] - **保持独立的战略**:每个人都需要从“员工”角色向“老板”或“创始人”角色转变,核心在于拥有坚定的“目标感”,并动用一切手段(包括大模型)去达成远大目标[31] - **对教育的启示**:应鼓励孩子树立宏大的志向(如在土卫六开演唱会),这将是他们保持主动思考、始终屹立于“费米能级”之上的根本源泉[33]
LeCun曝Meta作弊刷榜,田渊栋:我没想到这个结局
量子位· 2026-01-04 13:21
Meta内部管理与Llama 4事件 - 公司为应对竞争压力,要求GenAI部门加速AI开发和部署,并调派原FAIR团队人员参与Llama 4项目[6] - 团队内部沟通破裂,管理层倾向于已验证的、可直接落地的技术,而研究团队希望探索新方向[7] - Llama 4在基准测试中存在结果被篡改的问题,团队对不同基准测试使用了不同的模型以获取更好结果[1] - Llama 4项目表现不佳且涉及排行榜造假,导致管理层对团队失去信心,并将相关人员边缘化[10] - 事件引发公司团队大换血,一方面天价从外部挖人,另一方面大刀阔斧裁减老员工[11] 关键人物动态:田渊栋 - 田渊栋及其团队在一月份被临时调入Llama 4项目救火,十月份在Llama 4.5训练完成后即被裁撤[13] - 团队被迫放下原有工作,在距离发布截止日期仅剩2个月的情况下接手项目并处理所有棘手工作[14] - 田渊栋曾预想四种可能结局,但最终遭遇第五种结局:未被问责,但整个团队被裁撤[15][16] - 田渊栋在Meta工作十多年,近年已抱有“公司快把我开了吧”的心态,此次变动为其小说创作提供了新素材[18] - 在强化学习与大模型推理方面取得新探索,包括连续隐空间推理(coconut)、Token Assorted、DeepConf、ThreadWeaver等方法提升推理效率,并在可解释性方面研究Grokking现象[19] - 田渊栋已正式宣布创业,将担任一家新初创公司的联合创始人,并拒绝了其他大厂的邀请[33] 关键人物动态:LeCun - LeCun离职后批评公司对大语言模型(LLM)过度沉迷,尤其点名批评新挖来的超级智能实验室成员年轻且缺乏经验[22][23] - LeCun认为LLM本质受限于语言,是实现人类水平智能的“死胡同”,强调需通过世界模型理解物理世界规律[25][26] - LeCun创立新公司Advanced Machine Intelligence (AMI),全力投入开源世界模型研发,其本人担任执行主席而非CEO[27][28][29] - 新公司研究聚焦于V-JEPA架构,旨在通过视频和空间数据学习理解物理世界,使AI具备规划、推理和长期记忆能力[32] - LeCun预计将在12个月内见证该技术的初始版本,并在近几年内实现大规模进展[32] 行业竞争与影响 - DeepSeek的横空出世给公司带来巨大压力,导致Llama 4在发布前即被视为落后,促使公司疯狂加码AI投资[4][5] - 公司内部因竞争压力和高层决策,引发了核心研究人员离职并转向创业的浪潮[3]
首都在线20251230
2026-01-01 00:02
**涉及的公司与行业** * 公司:首都在线 [1] * 行业:云计算、算力服务、人工智能(AI)大模型、边缘计算 [2][4] **核心观点与论据** * **业务增长驱动力**:公司受益于大模型从训练转向推理应用,带动边缘云需求增长 [2][4] 基于MaaS服务和Converged UI平台的新业务每月增长率达20%-30% [2][4] 预计公司每年收入增长50%-60% [13] * **核心客户与模式**:紧密围绕智谱、MiniMax等大模型厂商进行算力布局,其上市和业务扩展带动公司订单量显著增加 [4] 支持大模型企业出海,客户依赖性增强 [2][4] 业务模式并非先建设再等待客户,而是根据长期合作提前接单后再建设 [10] * **独特竞争优势**: * **转型与合作优势**:转型较早,与智谱等公司早期建立深度合作,积累了技术投入和用户理解优势 [2][5] * **全球资源与网络**:具备全球资源适配能力,满足客户国内外资源布局需求,并将其连成一张网实现高效调度 [2][5] * **国产化与合规服务**:致力于打造国产与英伟达适配的平台 [2][4] 提供国产设备适配服务,确保业务合规性和连续性 [2][5] * **客户服务模式**:通过“铁三角战略”(销售、产品技术解决方案、大客户服务)深耕大客户,提供多产品全面适配 [2][6] * **盈利与回报**:通过MaaS服务及ComfyUI与模型厂商合作推广的业务毛利较高 [3][11] 在根据地(如庆阳)通过政府补助及政策支持,实现区域内较高盈利 [3][11] * **前瞻性业务布局**: * **太空算力**:已在文昌建设算力中心,在庆阳设立算力中心支持酒泉卫星发射 [2][7] * **AI内容生成**:探索与国漫合作,利用AI生成短剧或漫画短剧 [7] * **战略定位类比**:公司与Minimax、智谱等模型厂商的合作类似于阿卡迈与英伟达的关系,但服务更广泛,涵盖CDN节点、全球网络节点、计算云及智算资源云服务 [12] **其他重要内容** * **业务发展策略**:采取根据客户需求逐步扩大资产和合作的策略 [2][9] * **国内外资源布局**: * **国内**:重点布局庆阳、怀来、芜湖和海南等八大节点(“根据地计划”)[2][9] 庆阳1.0版本已有1.1万P算力租赁机房 [14] * **海外**:布局包括达拉斯和新加坡,根据客户出海需求进行部署 [2][9] * **具体算力资源规划数据**: * 海南文昌航天超算产业园:规划20兆瓦 [13] * 美国达拉斯数据中心:规划20兆瓦 [13] * 河北怀来数据中心:占地30亩,规划50兆瓦,预计2026年上半年封顶 [13][14] * 安徽芜湖数据中心:占地106亩,规划100兆瓦,预计2026年封顶 [13][14] * 庆阳2.0版本:占地140亩,规划150兆瓦 [14]
2025年大模型推理优化与部署实践产业洞察研究报告-云计算开源产业联盟
搜狐财经· 2025-12-25 10:34
报告核心观点 - 大模型产业已从“模型创新”迈入“规模落地”关键期,推理优化与高效部署成为核心竞争力 [1] - 市场呈现高速增长态势,多元部署形态与全栈优化技术协同推动行业发展 [1] - 产业同时面临成本、标准等多重挑战 [1] 一、大模型推理趋势洞察 (一) 趋势洞察 - 人工智能大模型产业重心从“百模大战”驱动的预训练规模竞赛,转向模型对齐、推理能力增强与服务效能优化阶段 [24] - 算力投入重点由训练侧向推理侧延伸,推理服务的高效化、轻量化与智能化成为算力资源配置的核心方向 [24] - 自2025年2月DeepSeek系列开源大模型获得广泛关注以来,模型使用与推理成本呈现显著结构性下降趋势,形成“成本下行、算力上行”的发展态势 [29] - 技术发展从“追求模型规模”转向“提升推理效率”,服务模式从“通用型解决方案”转向“定制化场景适配” [31] (二) 市场分析 1 全球市场 - 全球AI推理算力市场在2021至2024年间增长近十倍,从14.04亿美元迅速扩张至139.58亿美元 [36] - 2024年市场增长率回升至31.5%,标志着全球AI算力市场正式从训练驱动阶段迈入推理驱动的新发展周期 [36] - 2025年全球AI推理算力市场规模预计增至183.55亿美元 [1] - 2025年全球范围内通过API调用大模型推理服务的企业比例已超过75%,基于Token的计费模式成为市场主流 [39] - 亚马逊、谷歌、微软三大云厂商构建的“模型市场”生态已占据全球市场份额的65%以上 [39] 2 中国市场 - 中国AI推理算力市场规模从2021年的56.5亿元迅猛扩张至2025年的438.3亿元,年均复合增长率达到66.3% [1][43] - 2024年市场增长率大幅攀升至150.10%,标志着中国市场已率先进入高速增长新阶段 [43] - 中国AI服务器推理工作负载占比预计将从2023年的41.3%持续攀升,2026年将达到70.5% [1][47] - 2025年上半年中国推理算力市场份额分布为:天翼云21.4%、阿里云20.1%、华为云11.2%,其他厂商占47.3% [52] 二、大模型推理部署主流方式 - 形成四大主流部署方式:模型即服务(MaaS)、大模型推理一体机、私有化部署平台、云-边-端协同推理 [2] - 2023年至2027年间,大模型推理平台的部署结构将发生显著变化:公有云部署预计从49%增至58%,私有云部署从16%上升至26%,本地一体机部署将从19%降至8%,边缘服务器从12%降至5% [58] - 混合架构正成为主流选择,企业更倾向于根据业务特性在云边端之间灵活配置资源 [58] (一) 模型即服务(MaaS) - MaaS凭借弹性计费与低门槛优势,成为中小企业首选 [2] - 全球企业在基础模型API上的支出呈现爆发式增长,从2023年的50万美元迅速攀升至2025年的1330万美元,年均复合增长率超过400% [62] - 企业级Token API市场份额从2023年OpenAI占据主导,发展到2025年Anthropic、Google、Meta等厂商市场份额显著提升的均衡态势 [66] (二) 大模型推理一体机 - 大模型推理一体机以软硬一体化、开箱即用特性,受央国企及政务单位青睐 [2] - 2025年预计出货量超10万台 [2] (三) 私有化大模型推理部署平台 - 私有化部署平台满足金融、医疗等行业数据安全与定制化需求 [2] - 81%的企业选择云原生形式进行部署 [2] (四) 云-边-端协同推理 - 云-边-端协同推理通过分布式架构,适配工业质检、智能交通等实时性需求场景 [2] 三、大模型推理优化技术原理 - 全栈优化技术成为核心支撑,多维度突破性能瓶颈 [2] (一) 硬件适配 - 硬件适配层面,GPU、NPU、ASIC三类芯片并行发展,通过深度优化充分释放算力 [2] - 国产算力生态快速成熟,华为昇腾、寒武纪等国产芯片在推理场景中的性能表现持续提升 [49] (二) 推理引擎 - 推理引擎依托PagedAttention、动态批处理等技术,将GPU利用率提升至60%-80% [2] (三) 模型层 - 模型层通过量化、知识蒸馏、混合专家(MoE)架构等轻量化技术,在保障精度前提下降低60%-70%显存占用 [2] (四) 并行计算 - 并行计算技术通过张量、流水线、数据并行等策略,支撑千亿参数模型分布式部署 [2] - P/D分离架构可使吞吐量提升30%-50% [2] 五、大模型推理优化与部署实践行业案例 (一) 金融领域 - 中信证券通过推理加速引擎实现财富管理智能化,累计处理服务请求超2亿次 [3] (二) 科研领域 - 哈佛大学借助高性能算力集群与优化框架,将模型部署周期从数周缩短至数天 [3] (三) 国产算力领域 - 开普云通过全栈协同优化,使长上下文推理吞吐量提升1.5倍 [3] (四) 制造业领域 - 某机器人企业依托分布式容器云平台,实现私有化部署效率提升80%,响应延迟降低35% [3] 六、发展趋势与建议 (二) 产业挑战 - 当前行业存在成本高企、标准缺失、人才短缺、生态碎片化、安全合规复杂等问题 [3] (三) 发展建议 - 报告建议加快建立技术标准体系,构建产学研用协同创新机制,培育复合型人才队伍,优化产业政策环境,推动商业模式创新 [3] - 未来技术将向全栈协同优化、云边端协同、自适应调度等方向演进 [3]