Workflow
异构计算
icon
搜索文档
黄海清:建议组建中国异构计算软件生态联盟,建立中国的类CUDA系统
新浪财经· 2026-02-02 00:12
行业政策与生态建设 - 上海市政协委员、上海熠知电子科技有限公司董事长黄海清博士,在上海市“两会”召开前夕提出建议,呼吁上海政府推进建立中国版的“异构算力”统一软件联盟生态 [1] - 该建议旨在打造一个类似于英伟达的中国版编程共享软件平台,并认为这一部署对整个产业而言非常重要 [1]
海光信息:系统总线互联协议(HSL)+助力国产AI产业算力协同与生态升级
经济观察网· 2026-01-30 17:12
公司定位与战略 - 公司是国产高端通用计算领域的领军企业,秉持开放兼容的发展策略,在安全性与稳定性方面有深厚技术沉淀 [1] - 公司长期致力于为国内计算产业提供核心技术支撑,业务布局深度契合国产算力产业自主可控、高效协同的发展方向 [1] - 公司聚焦高端计算芯片及相关技术研发,紧跟人工智能等新兴应用对算力的需求升级,积极探索突破异构计算体系下的互联瓶颈 [1] 行业背景与挑战 - 人工智能大模型等应用导致算力需求指数级增长,传统单一形态的处理器架构已难以满足多样化场景的性能需求 [2] - CPU、GPU、NPU等各类芯片组成的异构计算体系成为行业主流,但不同部件的高效协同是行业痛点 [2] - 中国工程院院士指出,CPU、GPU、加速卡存储与网络模块的协同效率直接决定异构系统整体性能的释放,统一高效的互联总线协议是解决问题的关键 [2] 核心技术突破:HSL协议 - 公司自主研发了系统总线互联协议,并于2025年9月在北京举办的研讨会上,面向GPU、IO、OS、OEM等产业全栈正式开放该协议 [2] - HSL协议具备高带宽、低延迟、全局地址空间一致性、全栈开放和灵活扩展五大核心特性 [2] - 相比传统PCIe接口,HSL协议实现多维度突破:性能上大幅降低数据传输延迟、提升带宽,支持芯片间高速直连,让AI超节点内GPU充分利用CPU内存空间,显著提升AI模型运行效率 [2] - 在开发扩展上,HSL协议简化编程复杂度,可灵活支持从单机多卡到大规模智算集群的弹性扩展,支持万卡级以上计算加速卡异构互联 [2] - 在生态协同上,HSL协议开放完整总线协议、提供IP参考设计及开放指令集,全面支持主流国产AI芯片,助力上下游伙伴高效连接,打破技术壁垒 [2] 协议进展与生态合作 - 2025年第四季度已正式发布HSL1.0规范,为生态伙伴提供标准化技术基础 [3] - 公司已与国内多家核心生态伙伴达成深度合作,涵盖GPU研发、服务器整机、操作系统等领域,形成完整产业生态 [3] 战略意义与未来展望 - HSL协议的研发与开放是公司技术实力的集中体现,也是践行国产算力自主可控使命的重要举措 [5] - 未来公司将持续投入协议迭代升级,优化性能、完善生态,推动国产CPU、GPU、NPU等核心部件深度协同,打破国外技术垄断 [5] - 从产业层面看,HSL协议的推广应用将推动国产AI算力生态规范化、规模化发展,为数字经济高质量发展提供强劲算力支撑 [5]
沐曦股份上市后首份业绩预告出炉!预计2025年亏损收窄50%左右 推出曦索X系列GPU品牌与产品线
新浪财经· 2026-01-27 23:29
2025年度业绩预告 - 公司预计2025年度实现营业收入16亿元至17亿元,同比增长115.32%至128.78% [1] - 公司预计2025年度归母净利润亏损6.5亿元至7.98亿元,亏损同比收窄43.36%至53.86% [1] - 公司预计2025年度扣非净利润亏损7亿元至8.35亿元,亏损同比收窄20.01%至32.94% [1] 业绩变动原因 - 收入显著增长源于公司加大市场开拓,产品及服务获下游客户认可与持续采购 [3] - 股份支付费用较上年同期减少,对利润产生正向影响,降低了亏损幅度 [3] 产品线与技术进展 - 公司致力于为异构计算提供全栈GPU芯片及解决方案,产品线覆盖曦思N系列(智算推理)、曦云C系列(通用计算)、曦彩G系列(图形渲染) [4] - 曦彩G系列相关产品已完成GPU IP设计和验证 [4] - 最新一代主力产品曦云C600系列性能介于英伟达A100和H100之间,预计2026年上半年正式量产 [4] - 下一代产品曦云C700系列性能对标英伟达H100,预计2026年下半年流片 [4] - 公司未来几年计划推出曦云C600系列、C700系列迭代产品,以及下一代云端大模型推理芯片和曦彩G系列产品 [4] 新品牌发布与业务布局 - 公司正式推出曦索X系列全新GPU品牌与产品线,旨在赋能AI for Science创新生态 [5] - 目前公司已完成在AI推理、AI训练、图形渲染、科学智能四大核心赛道的产品矩阵全覆盖 [5] - 曦索X系列GPU专为科学智能场景优化,首款产品曦索X206可支撑气候气象模拟、流体力学计算等传统计算任务及AI4S交叉学科研究 [5] - 公司于2025年1月20日全资设立了沐曦数智(上海)科技有限公司,注册资本1亿人民币,经营范围包括集成电路设计等 [5] 财务目标与股价表现 - 基于测算,公司达到盈亏平衡点的预期时间最早为2026年 [4] - 公司股价从上市首日高点895元/股降至2025年1月27日收盘价572.18元/股,较历史最高点下跌36.07% [6] - 2025年1月27日盘中股价创历史新低,为558.58元/股 [6]
【环球问策】英特尔宋继强:具身智能正在从预编程模式转向多智能体自主协作模式
环球网· 2026-01-26 15:16
文章核心观点 - 具身智能作为AI前沿热点,其核心在于将智能能力与实体设备深度融合,通过感知-决策-执行-反馈闭环主动改造物理世界,行业正从提升能力上限向筑牢可靠性底线过渡,并面临数据标准化等挑战 [1][8] 技术特征与架构 - 具身智能核心特征是物理闭环与主动交互,通过执行器产生物理改变并依据环境反馈优化决策,区别于单纯的信息处理类AI [3] - 行业需求多样化:工业场景要求可靠性与精度,消费场景注重功耗与成本平衡,商用场景追求灵活适配与快速响应 [3] - 单一硬件架构难以覆盖所有需求,异构计算(CPU、GPU、NPU、AI ASIC协同)成为技术基石,以实现能效比与性能的最优平衡 [3] - 应用架构正从预编程模式转向多智能体自主协作模式,系统需根据需求、业务和场景动态自主构建业务流并生成专用智能体 [4] - 智能体由扩散模型、大语言模型(LLM)、视觉语言模型(VLM)等多种AI组件构成,计算内核、数据量级与并行度差异显著 [4] - 英特尔提出混合编排层架构,通过统一系统基础设施隔离硬件多样性,向上提供稳定软件接口,以降低上层业务编程成本并支持多厂商、多架构的灵活组合 [4] 机器人技术路径与硬件支撑 - 针对具身机器人,行业尚未形成统一最优技术路径,当前主流是混合异构框架,融合前沿AI模型与传统运动控制技术 [5] - 英特尔提出三级架构:系统2(慢系统)通过VLM等大模型实现视觉理解与任务规划;系统1(Action Expert)将规划映射为控制指令,兼顾实时性与设备适配性;系统0通过传统模型预测控制(MPC)技术将控制频率提升至1000Hz级别,确保运动平滑精准 [5] - 三级架构分别对应GPU、NPU、CPU的异构计算优势,形成协同体系 [5] - 硬件关键支撑是英特尔第三代酷睿Ultra For Edge处理器,专为工业级应用与物理AI设计,具备180 TOPS的AI算力,采用Intel 18A制程工艺,能效比显著提升 [6] - 该处理器核心优势在于工业级可靠性,包括宽温工作范围、10年稳定供货周期,以及针对机器人场景优化的高实时性与确定性 [6] - 配合英特尔机器人AI套件与具身智能SDK形成完整解决方案,前者提供模块化参考设计与优化软件包,支持传统视觉模型与大模型高效运行;后者新增LLM任务规划、EtherCAT实时通信等关键能力,复用工业机器人领域成熟技术积累,大幅降低厂商开发成本 [6] 可信赖性与安全保障 - 可信赖性是具身智能从实验室走向产业落地的核心瓶颈 [7] - 英特尔从决策、执行、故障应对三个维度构建保障体系:决策层面采用神经符号AI混合控制模式,将领域知识与规则嵌入系统以校验神经网络决策,避免幻觉导致灾难性后果 [7] - 执行安全层面借鉴汽车行业思路,构建“主控系统-安全系统-备用系统”三级硬件架构,安全系统持续监控传感器与执行器状态以预判风险,备用系统在故障时能将机器人引导至最小风险状态而非简单停机 [7] - 英特尔联合学界与产业界发布《具身智能机器人安全子系统白皮书》,提出PMDF(监控-决策-故障处理-恢复)框架,为行业提供标准化安全设计参考 [7] 产业落地前景与挑战 - 具身智能正处于“提升能力上限”向“筑牢可靠性底线”的关键过渡阶段 [8] - 物流分拣、工厂备料搬运、标准化产品组装等半结构化场景将率先商用落地,因其任务明确、领域知识清晰,能在现有技术条件下可靠运行 [8] - 预计一两年内,部分厂商将在实际工厂中部署具身智能机器人,但要实现百万台级别的工业规模应用,仍需突破量产一致性、成本控制、数据标准化等多重挑战 [8] - 数据问题是重要制约因素,由于场景多样性、机器人本体差异、精度要求不统一,数据孤岛现象突出,行业尚未形成统一的数据采集与训练标准 [8] - 当前阶段可通过构建开放生态、推动数据交易等方式缓解数据荒问题,数据标准化需在实践中逐步推进 [8] - 随着产业规模扩大,依托成熟工业体系(如车企)提升零部件量产能力,将有效降低硬件成本,推动具身智能向更广泛的商用场景渗透 [8]
芯片初创公司,单挑英伟达和博通
半导体行业观察· 2026-01-22 12:05
公司概况与融资 - 芯片初创公司Upscale AI宣布完成2亿美元A轮融资,旨在挑战英伟达在机架级AI系统交换机领域的地位,并与思科、博通和AMD等公司竞争 [1] - 本轮融资由Tiger Global、Premji Invest和Xora Innovation领投,多家知名风投及企业投资机构参投,使公司总融资额超过3亿美元 [1] - 投资者的迅速涌入反映了行业共识:网络是人工智能扩展的关键瓶颈,传统网络架构不适用于AI时代 [1] 市场定位与战略 - 公司专注于开拓预计到本十年末将达到1000亿美元的人工智能互连市场 [6] - 公司策略是将GPU、AI加速器、内存、存储和网络整合到一个单一的同步AI引擎中 [6] - 公司致力于普及AI计算的网络,坚信异构计算和异构网络是未来的发展方向,旨在为客户提供除英伟达NVSwitch之外的更多选择 [9][10] - 公司平台基于开放标准和开源技术构建,并积极参与相关联盟与基金会,如Ultra Accelerator Link联盟、Ultra Ethernet联盟等 [7] 核心产品与技术 - 公司核心产品是名为SkyHammer的解决方案,这是一款专为纵向扩展网络(连接机架内部硬件组件)而优化的芯片,能提供确定性延迟 [6][9] - SkyHammer通过缩短加速器、内存和存储之间的距离,实现统一机架,并将整个堆栈转换为一个统一的同步系统 [6] - 该芯片采用从头开始构建的内存结构ASIC,专门为AI工作负载设计,支持内存语义协议,并生成实时遥测数据以优化性能 [13] - SkyHammer兼容多种开源网络技术,包括UALink、ESUN和UEC,其中UEC可为多达100万个芯片的AI集群提供支持 [13][14] - 该平台将同时支持UALink和与其竞争的ESUN协议,并将扩展对开源网络操作系统SONiC的支持 [17] 行业背景与挑战 - 英伟达的网络业务(如NVLink)是其重要护城河,其2026财年第三季度网络业务收入同比增长162%,达到81.9亿美元 [3] - 传统数据中心网络解决方案是为AI出现之前的世界设计的,不适合机架级规模所需的大规模、高度同步的扩展 [2] - 随着单芯片性能扩展乏力,Scale Up和Scale Out的连接需求将成为主流,市场需要高基数、高总带宽的交换机 [3] - 目前能够与英伟达NVSwitch竞争的专用UALink交换机尚未问世,AMD的首批基于UALink的机架式系统将通过以太网隧道传输该协议 [16] 创始团队与背景 - 公司创始人Rajiv Khemani是连续芯片创业专家,曾担任Cavium Networks首席运营官,该公司后被Marvell以60亿美元收购 [3][4] - Khemani也是Innovium的联合创始人兼首席执行官,该公司于2021年被Marvell以11亿美元收购 [4] - 2022年,Khemani联合创立了Auradine,致力于研发AI和区块链计算及网络芯片,该公司在2025年4月前共筹集了超过3亿美元 [5] - 2024年5月,Khemani和联合创始人Barun Kar将Auradine的部分网络业务剥离,成立了Upscale AI [6] - 联合创始人Barun Kar曾任Palo Alto Networks工程高级副总裁,并在Juniper Networks管理以太网路由器和交换机产品 [6] 发展计划与目标 - 凭借新增的2亿美元融资,公司将推出首个涵盖芯片、系统和软件的全栈式交钥匙平台,旨在连接未来通用人工智能的异构系统 [7] - 公司已与超大规模数据中心运营商和GPU供应商建立合作关系,并完成了架构验证,当前资金重点是将创新转化为实际部署 [18] - 公司目前主要专注于纵向扩展网络产品,但长期计划将产品线扩展到更传统的横向扩展交换机 [18]
英特尔副总裁宋继强:智能体AI带来算力挑战,异构计算将成为构建AI基础设施的重要方向
新浪财经· 2026-01-15 18:41
行业趋势:AI能力演进与算力需求转移 - AI能力发展正从基础能力大模型向智能体AI演进,更注重提供具体功能以构建工作流 [3][7] - 具身智能作为物理AI的重要形态,将数字世界的智能能力嵌入实体设备与真实世界交互,这类应用多以推理为主 [3][7] - 行业分析机构预示,AI算力需求的重心正从训练向推理转移,这将消耗相应比例的算力 [3][7] 技术架构:异构计算成为核心需求 - 多智能体构建完善工作流并实现多流并行运作,对异构基础设施提出需求 [3][7] - AI Agent的功能支持包含多种模型、调度器及预处理模块,这些模块需不同硬件提供最优能效比与成本经济性支撑 [3][7] - 尽管所有任务均可在CPU上运行,但难以兼顾及时性与功能有效性,因此需高端GPU、中端GPU等多种硬件组合搭配,针对不同规模模型与任务场景实现精准适配 [3][7] 系统构建:异构支持能力的三个层面 - 上层需构建开放的AI软件栈,屏蔽系统级变化以保障应用投资有效性 [3][7] - 中间系统基础设施需适配中小企业需求,提供友好的服务器设置配置及以太网互联方案 [3][7] - 底层需整合持续演进的多元硬件,包括不同架构的CPU、GPU、NPU、AI加速器及类脑计算设备,通过分层基础设施构建灵活异构系统 [3][7] 应用领域:具身智能机器人的实现与挑战 - 针对具身智能机器人领域,智能任务实现方式从传统分层定制模型到全端到端VLA模型,行业尚未确定最优方案,正处于多元尝试阶段 [4][8] - 传统工业自动控制方案侧重可靠性、实时性与计算精度,而基于大语言模型的方案偏向神经网络解决路径,需差异化计算架构支撑 [4][8] - 可通过CPU实现高速响应、NPU低功耗输出、GPU完成视觉与语言模型识别,依托CPU+GPU+NPU的异构芯片调度不同工作负载 [4][8] 未来展望:具身智能机器人的规模化发展 - 具身智能机器人时代必将到来,也将带来算力和能耗挑战,异构计算正逐渐成为AI基础设施的核心架构 [4][8] - 未来当机器人规模达到百万级,将突破工业场景限制,广泛承载商业化、个人化应用,亟需多智能体系统支撑 [4][8] - 多智能体系统运行于物理AI设备的技术堆栈仍面临诸多挑战,而异构计算是解决系统可信赖问题的关键路径 [4][9]
英特尔副总裁宋继强:AI计算重心正在向推理转移
新浪财经· 2026-01-15 18:41
行业趋势:AI能力与算力需求演进 - AI能力发展正从基础能力大模型向智能体AI演进,更注重提供具体功能以构建工作流 [3][7] - 具身智能作为物理AI的重要形态,将数字世界的智能能力嵌入实体设备与真实世界交互,这类应用多以推理为主 [3][7] - 行业分析机构预示,AI算力需求的重心正从训练向推理转移,这将消耗相应比例的算力 [3][7] 技术架构:异构计算成为核心需求 - 多智能体构建完善工作流并实现多流并行运作,对异构基础设施提出需求 [3][7] - AI Agent的功能支持包含多种模型、调度器及预处理模块,这些模块需不同硬件提供最优能效比与成本经济性支撑 [3][7] - 尽管所有任务均可在CPU上运行,但难以兼顾及时性与功能有效性,因此需高端GPU、中端GPU等多种硬件组合搭配,针对不同规模模型与任务场景实现精准适配 [3][7] 系统构建:灵活异构支持的三层能力 - 上层需构建开放的AI软件栈,屏蔽系统级变化以保障应用投资有效性 [3][7] - 中间系统基础设施需适配中小企业需求,提供友好的服务器设置配置及以太网互联方案 [3][7] - 底层需整合持续演进的多元硬件,包括不同架构的CPU、GPU、NPU、AI加速器及类脑计算设备,通过分层基础设施构建灵活异构系统 [3][7] 应用领域:具身智能机器人的实现与挑战 - 针对具身智能机器人领域,智能任务实现方式从传统分层定制模型到全端到端VLA模型,行业尚未确定最优方案,正处于多元尝试阶段 [4][8] - 传统工业自动控制方案侧重可靠性、实时性与计算精度,而基于大语言模型的方案偏向神经网络解决路径,需差异化计算架构支撑 [4][8] - 可通过CPU实现高速响应、NPU低功耗输出、GPU完成视觉与语言模型识别,依托CPU+GPU+NPU的异构芯片调度不同工作负载 [4][8] 未来展望:具身智能机器人的规模化发展 - 具身智能机器人时代必将到来,也将带来算力和能耗挑战,异构计算正逐渐成为AI基础设施的核心架构 [4][8] - 未来当机器人规模达到百万级,将突破工业场景限制,广泛承载商业化、个人化应用,亟需多智能体系统支撑 [4][8] - 多智能体系统运行于物理AI设备的技术堆栈仍面临诸多挑战,而异构计算是解决系统可信赖问题的关键路径 [4][9]
TPU、LPU、GPU-AI芯片的过去、现在与未来
2025-12-29 09:04
行业与公司 * **行业**:人工智能(AI)芯片行业,涵盖图形处理器(GPU)、张量处理器(TPU)、语言处理器(LPU)等专用芯片 [2] * **涉及公司**: * **NVIDIA**:GPU及CUDA生态主导者 [2][3] * **Google**:TPU的研发者与推动者 [2][5] * **Groq**:LPU的初创公司,由前TPU团队成员创立 [2][7] 核心观点与论据 * **历史演进:从通用到专用** * **GPU**:从图形处理转向AI计算基石,NVIDIA创始人黄仁勋的远见在于构建CUDA生态,使其通用化 [2][3];2012年AlexNet在ImageNet竞赛中以15.3%的错误率击败第二名(26.2%),成为GPU在深度学习领域崛起的引爆点 [4] * **TPU**:源于Google对算力危机的“未雨绸缪”,2013年预测若每位安卓用户每天使用3分钟语音搜索,需将数据中心容量翻倍 [5];采用脉动阵列架构以打破冯·诺依曼瓶颈,提升AI计算效率 [6] * **LPU**:由前TPU团队成员再创业推出,理念是进一步“专用化”,专注于语言处理,旨在推动“AI for Everyone”,通过确定性执行架构提供可预测的低延迟推理 [7][8][9] * **架构与性能对比** * **架构核心**: * GPU:CUDA核心 + Tensor Core并行处理架构 [11] * TPU:脉动阵列专用设计 [12],如256x256 MAC单元阵列 [13] * LPU:确定性执行可编程流水线 [14],采用片上SRAM高速存储 [17] * **性能对比**(以LPU、NVIDIA H100 GPU、Google TPU v4/v5为例): * **内存与带宽**:LPU使用约230MB片上SRAM,带宽达80TB/s;GPU使用80-96GB HBM3,带宽约8TB/s;TPU使用片上高带宽内存 [14] * **延迟**:LPU为确定性极低延迟(<100ms),GPU延迟可变且较高(200-1000ms),TPU针对特定负载优化 [14] * **功耗效率**:LPU高效(约1W per token/s),GPU功耗非常高(250-700W+),TPU v5比前代性能功耗比提升67% [14][231] * **软件生态**:GPU拥有成熟的CUDA、TensorRT生态;TPU与TensorFlow/JAX深度集成;LPU为新兴生态(Groq API) [14] * **主流模型适配** * **GPU**:适配GPT-5(通过NVLink集群训练)、Claude(PyTorch支持)、LLaMA(CUDA生态成熟)等模型 [18] * **TPU**:适配Gemini(1e26 FLOPS TPUv5 Pod训练)、PaLM(TensorFlow深度优化)及Google内部模型(JAX框架支持) [18] * **市场竞争与合作动态** * **Google TPU v7的“反击”**:2025年11月发布的TPU v7(Ironwood)单pod聚合计算能力据称是NVIDIA最大NVL72机架配置的约40倍 [20];市场策略从自用转向对外销售,目标抢占NVIDIA数据中心收入份额的10%,潜在客户包括Meta(数十亿美元交易)、Anthropic(超100万颗TPU芯片)等 [22][24][257] * **NVIDIA与Groq的强强联合**:合作价值高达200亿美元,旨在补全NVIDIA在推理市场的短板,通过整合LPU技术提供端到端解决方案 [22][23][274][282] * **未来技术趋势** * **专用化**:ASIC芯片市场份额预计到2026年将达到30%以上 [25];TPU专注于大规模矩阵运算,LPU专注于实时推理优化,边缘AI专用芯片兴起 [25][27] * **高能效**:“绿色AI”成为关键指标,性能功耗比优先,依赖先进制程工艺(3nm, 2nm)、创新架构及液冷散热技术 [25][27] * **异构计算**:多芯片协同工作成为主流架构,例如GPU负责训练、TPU负责大规模推理、LPU负责实时交互 [25][27] * **未来市场格局** * **云计算巨头自研芯片**:现有布局包括Google的TPU v7、Amazon的Trainium和Inferentia、Microsoft的Maia、Apple的Neural Engine [32];预计到2026年,自研芯片性能将与NVIDIA正面竞争,并与云服务深度绑定,提供一站式解决方案以减少对第三方供应商依赖 [28][32] * **初创公司机遇与挑战**:机遇在于边缘AI市场增长、低功耗推理需求及细分领域创新 [33];挑战在于高昂的研发成本、巨头生态竞争压力及供应链地缘政治影响 [29][33] * **未来应用前景** * **大模型推理普及化**:到2026年,LLM推理成本将大幅下降,应用更加普及 [31] * **边缘AI兴起**:LPU、NPU等低功耗芯片将在物联网设备端发挥重要作用 [31] * **行业渗透与融合**:AI芯片将深入制造业(智能质检)、金融业(智能风控)、医疗健康(影像诊断)、自动驾驶(高级别功能)、教育(个性化学习)、智能客服等领域 [31][34][35][36] 其他重要内容 * **资本博弈**:AI芯片市场的竞争不仅是技术比拼,更是技术、资本和生态的全方位较量 [37] * **发展主线**:AI芯片的发展史是技术创新与市场需求相互促进的演进史,从GPU的并行计算革命,到TPU的专用架构创新,再到LPU的确定性执行突破 [37]
连英伟达都开始抄作业了
钛媒体APP· 2025-12-26 09:38
交易核心信息 - 英伟达宣布以200亿美元现金与AI芯片初创公司Groq达成技术许可协议[1] - 交易结构特殊:并非正式收购,Groq保持独立运营,但创始人Jonathan Ross、总裁Sunny Madra等核心团队全部加入英伟达,英伟达获得Groq几乎所有核心技术资产,仅排除GroqCloud云计算业务[1] - 200亿美元对价是Groq三个月前69亿美元估值的2.9倍,构成罕见的“估值倒挂”[1] - 分析师认为交易本质是英伟达用金钱换时间,将潜在颠覆者纳入麾下,同时规避反垄断审查[1] AI芯片行业趋势与市场格局 - AI产业正从集中式模型训练全面迈入规模化推理落地新阶段[1] - AI推理市场正以年复合增长率65%的速度扩张,预计2025年规模突破400亿美元,2028年将达到1500亿美元[1] - 英伟达在推理赛道面临多方挑战:谷歌TPU凭借成本优势抢夺客户,AMD MI300X拿下微软40亿美元订单,华为昇腾在中国市场份额已飙升至28%[1] - 预计到2027年,英伟达市场份额将维持在75-80%,AMD占10-12%,谷歌TPU占8-10%,其他厂商份额仅剩2-3%[14] Groq的技术优势与市场表现 - Groq由谷歌TPU核心开发者Jonathan Ross于2016年创立,旨在打造专为AI推理优化的专用芯片LPU[2] - LPU采用“可编程流水线”设计,解决GPU的“内存墙”问题,带来三大优势:极致的低延迟(首token响应时间仅0.22秒,比GPU快5-18倍)、超高能效比(功耗300-500W,是英伟达H100的三分之二,能效比是GPU的10倍以上)、确定性计算[3] - LPU内存带宽高达80TB/s,是HBM的10倍,处理Llama 2-70B大模型时吞吐量达241 tokens/秒,是其他云服务商的2倍以上,能将算力成本降低至GPU的三分之一[3] - Groq估值在2024年8月至2025年9月间暴涨146%,累计融资超30亿美元,服务超200万开发者,客户包括Meta、沙特阿美(15亿美元协议)、加拿大贝尔等[4][5] 英伟达面临的竞争压力与战略动机 - 尽管英伟达2025年股价累计涨幅超35%,持有现金及短期投资达606亿美元,但在推理市场面临加剧的竞争压力[6] - 谷歌TPU v7性能接近英伟达Blackwell,凭借自研芯片+云服务一体化优势提供30%-40%的成本优势,并开始对外销售[6] - AMD MI300X兼容CUDA生态,切换成本低,价格比同性能GPU低20%-30%,2025年获得微软Azure 40亿美元订单,市场份额从10%提升至15%,预计全年AI芯片营收超50亿美元,同比增长120%[7] - 受出口管制影响,英伟达高端芯片无法进入中国,华为昇腾市场份额从2023年15%飙升至2025年28%,英伟达份额则从70%跌至54%[7] - GPU在推理场景存在天生短板,而Groq的LPU精准命中了低延迟、高能效、低成本的需求痛点[8] - 200亿美元交易对英伟达财务压力不大,仅占其606亿美元现金的33%,潜在收益巨大:若助其维持推理市场70%以上份额,按2028年1500亿美元市场规模计算,每年可带来超1000亿美元营收[10] 交易的战略整合与潜在影响 - 交易旨在实现“人才+技术+渠道”三位一体整合:获得Groq创始人Jonathan Ross等核心人才、LPU架构等核心技术、以及沙特阿美等客户渠道[11] - 计划整合GPU与LPU,形成“训练用GPU,推理用LPU”的异构计算解决方案,覆盖AI全流程,进一步强化生态壁垒[11] - 技术整合的关键挑战在于软件生态兼容,需将Groq的GroqWare套件和GroqFlow工具链融入英伟达CUDA生态[12] - 若软件整合成功,英伟达推理解决方案可实现成本降低至GPU三分之一,延迟降低至200毫秒以内,部分场景达50毫秒[13] - 推理成本降低和延迟优化将加速AI应用规模化落地,推动AI从实验室走向产业,2026年推理在AI服务器工作负载中占比预计达70.5%[13] 行业创新困境与未来趋势 - 交易暴露AI芯片初创公司创新困境:有颠覆性技术但难以打破巨头生态壁垒,客户切换CUDA生态成本高达数千万美元[5][15] - 行业进入整合阶段,创新者或被收编或在生态壁垒前耗死,市场“固化”趋势加剧[14] - 未来3-5年行业三大趋势:1) “GPU+LPU”异构计算成为主流,超80%的AI数据中心将采用此架构;2) 能效比成为核心竞争力;3) “软件定义硬件”成为新发展方向[17] - 尽管巨头垄断主流市场,但边缘场景和垂直行业(如工业物联网、医疗诊断)因需求小众、巨头覆盖不足,仍为初创公司提供机会[18] - 推理技术进步将推动AI计算向边缘端迁移,形成云端、边缘、终端三元共存格局,加速AI赋能千行百业[16]
深圳理工大学唐志敏:异构计算已成必然,软件决定芯片胜负丨GAIR 2025
雷峰网· 2025-12-24 11:19
算力概念的演进与重新定义 - “算力”是中国创造的概念,其本质是在可接受的资源与时间内完成计算任务的能力 [7][8] - 有观点提出用“Computility”一词替代“Computing Power”,以强调算力应像水电一样成为基础设施 [7] - 在传统算力基础上,衍生出“训力”(快速训练大模型)和“推力”(基于大模型快速推理)等新概念 [9][10] - 算力体系的演进可能催生多模态生成能力,例如未来或将小说直接“演”成电视剧 [10] 算力需求增长与异构计算的必然性 - 生成式AI对算力的需求持续快速增长,其增速远超制程工艺带来的性能提升 [12] - 仅靠CPU已无法满足需求,CPU主频与架构在过去二十多年未发生本质变化 [16] - 行业必然选择CPU+XPU(如GPGPU)的异构计算架构,以在通用性、性能、能耗和成本间寻求平衡 [16] XPU的本质与软件生态的核心地位 - XPU属于保守型硬件结构,仅提供计算资源,性能能否发挥取决于软件、编译器与程序员 [18][19] - 算力芯片的核心问题并非硬件架构,而是应用生态,生态包括操作系统、编译器、应用软件等所有软件的总和 [20][24] - 真正产生生产力的是应用软件而非芯片本身,成熟的软件体系对释放硬件性能至关重要 [24] - 硬件峰值性能只是指标,真实应用软件通常仅能发挥整机20%~30%的效率,优化空间巨大 [38] CPU生态格局:x86、Arm与RISC-V的挑战 - x86生态经过四五十年发展,拥有极高的市场占有率和生态惯性 [24] - 根据Gartner数据,基于x86软件的销售收入达3000多亿美元,而其年研发费用约600亿美元,远超全球服务器市场约800亿美元的总收入 [24] - Arm架构在服务器领域屡战屡败,其成功需要两个条件:掌握全栈技术的大公司弃用x86,以及端云融合促进应用迁移 [27] - RISC-V面临商业化困难,例如行业顶级人物Jim Keller创办的Tenstorrent公司已开始裁员,其芯片面临“不知卖给谁”的困境 [29] - RISC-V目前仅在软件简单的嵌入式场景(如存储控制器)应用较好,一旦进入计算领域则面临软硬件生态不成熟的多重问题 [29] - RISC-V在多核CPU所需的片上互联网络等硬件生态上尚不成熟,可能仍需依赖Arm的解决方案 [29] CUDA生态的壁垒与国产化必要性 - 硬件指令的直接支持对性能和能效始终有价值,Intel不断加入新指令即是例证 [32] - 兼容CUDA的API接口从技术角度看并不难,但复制其背后的完整软件生态(包括算力库、函数库、开发工具等)则极其困难 [32] - 国家层面已意识到生态建设的重要性,正在推动打造自主算力生态,以避免长期受制于人 [33] 芯片成功的核心:软件生态与差异化价值 - 在半导体发展放慢、中国面临制程限制的背景下,需通过跨学科交叉在系统、软件和算法层面寻求性能突破 [35] - 通过软件、编译和系统层面的优化,完全有可能在峰值性能较低的芯片上获得不错的应用效果 [44] - 实现AIGC生成影视内容等愿景,不仅需要GPGPU的计算能力,也需要GPU基础的图形渲染能力 [44] - 系统与平台厂商自研芯片能否成功,关键在于能否为产品和服务提供足够大的增值,以及能否掌控全栈软件体系 [44] - 苹果基于Arm自研芯片的成功,关键在于通过自研高性能芯片与自有软件体系结合,打造领先体验并实现产品高溢价 [45] - 架构创新不一定需要新指令系统,在现有指令体系(如RISC-V)下完全可以进行创新 [45] - 平台或系统厂商自研芯片必须有清晰的、能为系统或服务带来显著增值的差异化,否则使用成熟商用芯片是更理性的选择 [46] RISC-V的未来潜力与行业愿景 - RISC-V具备一定的包容性,有机会融合CPU、GPU和AI处理器的特性 [1] - 行业希望将RISC-V作为统一的指令系统方向,让各类处理器尽量统一到同一架构平台,以减少重复投入 [46] - 未来计算架构可能从当前的CPU+XPU异构体系,回归到以CPU为中心的新一体化架构 [47] - RISC-V有机会吸收开源体系的力量,逐步突破CUDA的生态壁垒 [47]