Workflow
异构计算
icon
搜索文档
TPU、LPU、GPU-AI芯片的过去、现在与未来
2025-12-29 09:04
行业与公司 * **行业**:人工智能(AI)芯片行业,涵盖图形处理器(GPU)、张量处理器(TPU)、语言处理器(LPU)等专用芯片 [2] * **涉及公司**: * **NVIDIA**:GPU及CUDA生态主导者 [2][3] * **Google**:TPU的研发者与推动者 [2][5] * **Groq**:LPU的初创公司,由前TPU团队成员创立 [2][7] 核心观点与论据 * **历史演进:从通用到专用** * **GPU**:从图形处理转向AI计算基石,NVIDIA创始人黄仁勋的远见在于构建CUDA生态,使其通用化 [2][3];2012年AlexNet在ImageNet竞赛中以15.3%的错误率击败第二名(26.2%),成为GPU在深度学习领域崛起的引爆点 [4] * **TPU**:源于Google对算力危机的“未雨绸缪”,2013年预测若每位安卓用户每天使用3分钟语音搜索,需将数据中心容量翻倍 [5];采用脉动阵列架构以打破冯·诺依曼瓶颈,提升AI计算效率 [6] * **LPU**:由前TPU团队成员再创业推出,理念是进一步“专用化”,专注于语言处理,旨在推动“AI for Everyone”,通过确定性执行架构提供可预测的低延迟推理 [7][8][9] * **架构与性能对比** * **架构核心**: * GPU:CUDA核心 + Tensor Core并行处理架构 [11] * TPU:脉动阵列专用设计 [12],如256x256 MAC单元阵列 [13] * LPU:确定性执行可编程流水线 [14],采用片上SRAM高速存储 [17] * **性能对比**(以LPU、NVIDIA H100 GPU、Google TPU v4/v5为例): * **内存与带宽**:LPU使用约230MB片上SRAM,带宽达80TB/s;GPU使用80-96GB HBM3,带宽约8TB/s;TPU使用片上高带宽内存 [14] * **延迟**:LPU为确定性极低延迟(<100ms),GPU延迟可变且较高(200-1000ms),TPU针对特定负载优化 [14] * **功耗效率**:LPU高效(约1W per token/s),GPU功耗非常高(250-700W+),TPU v5比前代性能功耗比提升67% [14][231] * **软件生态**:GPU拥有成熟的CUDA、TensorRT生态;TPU与TensorFlow/JAX深度集成;LPU为新兴生态(Groq API) [14] * **主流模型适配** * **GPU**:适配GPT-5(通过NVLink集群训练)、Claude(PyTorch支持)、LLaMA(CUDA生态成熟)等模型 [18] * **TPU**:适配Gemini(1e26 FLOPS TPUv5 Pod训练)、PaLM(TensorFlow深度优化)及Google内部模型(JAX框架支持) [18] * **市场竞争与合作动态** * **Google TPU v7的“反击”**:2025年11月发布的TPU v7(Ironwood)单pod聚合计算能力据称是NVIDIA最大NVL72机架配置的约40倍 [20];市场策略从自用转向对外销售,目标抢占NVIDIA数据中心收入份额的10%,潜在客户包括Meta(数十亿美元交易)、Anthropic(超100万颗TPU芯片)等 [22][24][257] * **NVIDIA与Groq的强强联合**:合作价值高达200亿美元,旨在补全NVIDIA在推理市场的短板,通过整合LPU技术提供端到端解决方案 [22][23][274][282] * **未来技术趋势** * **专用化**:ASIC芯片市场份额预计到2026年将达到30%以上 [25];TPU专注于大规模矩阵运算,LPU专注于实时推理优化,边缘AI专用芯片兴起 [25][27] * **高能效**:“绿色AI”成为关键指标,性能功耗比优先,依赖先进制程工艺(3nm, 2nm)、创新架构及液冷散热技术 [25][27] * **异构计算**:多芯片协同工作成为主流架构,例如GPU负责训练、TPU负责大规模推理、LPU负责实时交互 [25][27] * **未来市场格局** * **云计算巨头自研芯片**:现有布局包括Google的TPU v7、Amazon的Trainium和Inferentia、Microsoft的Maia、Apple的Neural Engine [32];预计到2026年,自研芯片性能将与NVIDIA正面竞争,并与云服务深度绑定,提供一站式解决方案以减少对第三方供应商依赖 [28][32] * **初创公司机遇与挑战**:机遇在于边缘AI市场增长、低功耗推理需求及细分领域创新 [33];挑战在于高昂的研发成本、巨头生态竞争压力及供应链地缘政治影响 [29][33] * **未来应用前景** * **大模型推理普及化**:到2026年,LLM推理成本将大幅下降,应用更加普及 [31] * **边缘AI兴起**:LPU、NPU等低功耗芯片将在物联网设备端发挥重要作用 [31] * **行业渗透与融合**:AI芯片将深入制造业(智能质检)、金融业(智能风控)、医疗健康(影像诊断)、自动驾驶(高级别功能)、教育(个性化学习)、智能客服等领域 [31][34][35][36] 其他重要内容 * **资本博弈**:AI芯片市场的竞争不仅是技术比拼,更是技术、资本和生态的全方位较量 [37] * **发展主线**:AI芯片的发展史是技术创新与市场需求相互促进的演进史,从GPU的并行计算革命,到TPU的专用架构创新,再到LPU的确定性执行突破 [37]
连英伟达都开始抄作业了
钛媒体APP· 2025-12-26 09:38
交易核心信息 - 英伟达宣布以200亿美元现金与AI芯片初创公司Groq达成技术许可协议[1] - 交易结构特殊:并非正式收购,Groq保持独立运营,但创始人Jonathan Ross、总裁Sunny Madra等核心团队全部加入英伟达,英伟达获得Groq几乎所有核心技术资产,仅排除GroqCloud云计算业务[1] - 200亿美元对价是Groq三个月前69亿美元估值的2.9倍,构成罕见的“估值倒挂”[1] - 分析师认为交易本质是英伟达用金钱换时间,将潜在颠覆者纳入麾下,同时规避反垄断审查[1] AI芯片行业趋势与市场格局 - AI产业正从集中式模型训练全面迈入规模化推理落地新阶段[1] - AI推理市场正以年复合增长率65%的速度扩张,预计2025年规模突破400亿美元,2028年将达到1500亿美元[1] - 英伟达在推理赛道面临多方挑战:谷歌TPU凭借成本优势抢夺客户,AMD MI300X拿下微软40亿美元订单,华为昇腾在中国市场份额已飙升至28%[1] - 预计到2027年,英伟达市场份额将维持在75-80%,AMD占10-12%,谷歌TPU占8-10%,其他厂商份额仅剩2-3%[14] Groq的技术优势与市场表现 - Groq由谷歌TPU核心开发者Jonathan Ross于2016年创立,旨在打造专为AI推理优化的专用芯片LPU[2] - LPU采用“可编程流水线”设计,解决GPU的“内存墙”问题,带来三大优势:极致的低延迟(首token响应时间仅0.22秒,比GPU快5-18倍)、超高能效比(功耗300-500W,是英伟达H100的三分之二,能效比是GPU的10倍以上)、确定性计算[3] - LPU内存带宽高达80TB/s,是HBM的10倍,处理Llama 2-70B大模型时吞吐量达241 tokens/秒,是其他云服务商的2倍以上,能将算力成本降低至GPU的三分之一[3] - Groq估值在2024年8月至2025年9月间暴涨146%,累计融资超30亿美元,服务超200万开发者,客户包括Meta、沙特阿美(15亿美元协议)、加拿大贝尔等[4][5] 英伟达面临的竞争压力与战略动机 - 尽管英伟达2025年股价累计涨幅超35%,持有现金及短期投资达606亿美元,但在推理市场面临加剧的竞争压力[6] - 谷歌TPU v7性能接近英伟达Blackwell,凭借自研芯片+云服务一体化优势提供30%-40%的成本优势,并开始对外销售[6] - AMD MI300X兼容CUDA生态,切换成本低,价格比同性能GPU低20%-30%,2025年获得微软Azure 40亿美元订单,市场份额从10%提升至15%,预计全年AI芯片营收超50亿美元,同比增长120%[7] - 受出口管制影响,英伟达高端芯片无法进入中国,华为昇腾市场份额从2023年15%飙升至2025年28%,英伟达份额则从70%跌至54%[7] - GPU在推理场景存在天生短板,而Groq的LPU精准命中了低延迟、高能效、低成本的需求痛点[8] - 200亿美元交易对英伟达财务压力不大,仅占其606亿美元现金的33%,潜在收益巨大:若助其维持推理市场70%以上份额,按2028年1500亿美元市场规模计算,每年可带来超1000亿美元营收[10] 交易的战略整合与潜在影响 - 交易旨在实现“人才+技术+渠道”三位一体整合:获得Groq创始人Jonathan Ross等核心人才、LPU架构等核心技术、以及沙特阿美等客户渠道[11] - 计划整合GPU与LPU,形成“训练用GPU,推理用LPU”的异构计算解决方案,覆盖AI全流程,进一步强化生态壁垒[11] - 技术整合的关键挑战在于软件生态兼容,需将Groq的GroqWare套件和GroqFlow工具链融入英伟达CUDA生态[12] - 若软件整合成功,英伟达推理解决方案可实现成本降低至GPU三分之一,延迟降低至200毫秒以内,部分场景达50毫秒[13] - 推理成本降低和延迟优化将加速AI应用规模化落地,推动AI从实验室走向产业,2026年推理在AI服务器工作负载中占比预计达70.5%[13] 行业创新困境与未来趋势 - 交易暴露AI芯片初创公司创新困境:有颠覆性技术但难以打破巨头生态壁垒,客户切换CUDA生态成本高达数千万美元[5][15] - 行业进入整合阶段,创新者或被收编或在生态壁垒前耗死,市场“固化”趋势加剧[14] - 未来3-5年行业三大趋势:1) “GPU+LPU”异构计算成为主流,超80%的AI数据中心将采用此架构;2) 能效比成为核心竞争力;3) “软件定义硬件”成为新发展方向[17] - 尽管巨头垄断主流市场,但边缘场景和垂直行业(如工业物联网、医疗诊断)因需求小众、巨头覆盖不足,仍为初创公司提供机会[18] - 推理技术进步将推动AI计算向边缘端迁移,形成云端、边缘、终端三元共存格局,加速AI赋能千行百业[16]
深圳理工大学唐志敏:异构计算已成必然,软件决定芯片胜负丨GAIR 2025
雷峰网· 2025-12-24 11:19
算力概念的演进与重新定义 - “算力”是中国创造的概念,其本质是在可接受的资源与时间内完成计算任务的能力 [7][8] - 有观点提出用“Computility”一词替代“Computing Power”,以强调算力应像水电一样成为基础设施 [7] - 在传统算力基础上,衍生出“训力”(快速训练大模型)和“推力”(基于大模型快速推理)等新概念 [9][10] - 算力体系的演进可能催生多模态生成能力,例如未来或将小说直接“演”成电视剧 [10] 算力需求增长与异构计算的必然性 - 生成式AI对算力的需求持续快速增长,其增速远超制程工艺带来的性能提升 [12] - 仅靠CPU已无法满足需求,CPU主频与架构在过去二十多年未发生本质变化 [16] - 行业必然选择CPU+XPU(如GPGPU)的异构计算架构,以在通用性、性能、能耗和成本间寻求平衡 [16] XPU的本质与软件生态的核心地位 - XPU属于保守型硬件结构,仅提供计算资源,性能能否发挥取决于软件、编译器与程序员 [18][19] - 算力芯片的核心问题并非硬件架构,而是应用生态,生态包括操作系统、编译器、应用软件等所有软件的总和 [20][24] - 真正产生生产力的是应用软件而非芯片本身,成熟的软件体系对释放硬件性能至关重要 [24] - 硬件峰值性能只是指标,真实应用软件通常仅能发挥整机20%~30%的效率,优化空间巨大 [38] CPU生态格局:x86、Arm与RISC-V的挑战 - x86生态经过四五十年发展,拥有极高的市场占有率和生态惯性 [24] - 根据Gartner数据,基于x86软件的销售收入达3000多亿美元,而其年研发费用约600亿美元,远超全球服务器市场约800亿美元的总收入 [24] - Arm架构在服务器领域屡战屡败,其成功需要两个条件:掌握全栈技术的大公司弃用x86,以及端云融合促进应用迁移 [27] - RISC-V面临商业化困难,例如行业顶级人物Jim Keller创办的Tenstorrent公司已开始裁员,其芯片面临“不知卖给谁”的困境 [29] - RISC-V目前仅在软件简单的嵌入式场景(如存储控制器)应用较好,一旦进入计算领域则面临软硬件生态不成熟的多重问题 [29] - RISC-V在多核CPU所需的片上互联网络等硬件生态上尚不成熟,可能仍需依赖Arm的解决方案 [29] CUDA生态的壁垒与国产化必要性 - 硬件指令的直接支持对性能和能效始终有价值,Intel不断加入新指令即是例证 [32] - 兼容CUDA的API接口从技术角度看并不难,但复制其背后的完整软件生态(包括算力库、函数库、开发工具等)则极其困难 [32] - 国家层面已意识到生态建设的重要性,正在推动打造自主算力生态,以避免长期受制于人 [33] 芯片成功的核心:软件生态与差异化价值 - 在半导体发展放慢、中国面临制程限制的背景下,需通过跨学科交叉在系统、软件和算法层面寻求性能突破 [35] - 通过软件、编译和系统层面的优化,完全有可能在峰值性能较低的芯片上获得不错的应用效果 [44] - 实现AIGC生成影视内容等愿景,不仅需要GPGPU的计算能力,也需要GPU基础的图形渲染能力 [44] - 系统与平台厂商自研芯片能否成功,关键在于能否为产品和服务提供足够大的增值,以及能否掌控全栈软件体系 [44] - 苹果基于Arm自研芯片的成功,关键在于通过自研高性能芯片与自有软件体系结合,打造领先体验并实现产品高溢价 [45] - 架构创新不一定需要新指令系统,在现有指令体系(如RISC-V)下完全可以进行创新 [45] - 平台或系统厂商自研芯片必须有清晰的、能为系统或服务带来显著增值的差异化,否则使用成熟商用芯片是更理性的选择 [46] RISC-V的未来潜力与行业愿景 - RISC-V具备一定的包容性,有机会融合CPU、GPU和AI处理器的特性 [1] - 行业希望将RISC-V作为统一的指令系统方向,让各类处理器尽量统一到同一架构平台,以减少重复投入 [46] - 未来计算架构可能从当前的CPU+XPU异构体系,回归到以CPU为中心的新一体化架构 [47] - RISC-V有机会吸收开源体系的力量,逐步突破CUDA的生态壁垒 [47]
RISC-V如何走向数据中心?谷歌最新分享!
半导体行业观察· 2025-12-23 09:18
文章核心观点 - 谷歌以自身从x86成功过渡到ARM架构的经验为蓝图,阐述了将RISC-V集成到其仓库级数据中心基础设施的愿景、机遇与挑战,强调标准化、强大的硬件、全面的测试和社区协作是实现RISC-V规模化应用的关键[1][2][3] 谷歌的异构计算演进路径 - 公司的数据中心架构始于通用x86平台,在2010年代中期开始尝试ARM架构,并于2022年推出Tau T2A ARM实例以及近期推出定制Axion ARM处理器[1] - 目前数据中心已混合部署x86、ARM及包括早期RISC-V组件在内的新兴架构,认为异构性和专业化是克服摩尔定律放缓、实现更高规模效率和性能的关键[1] RISC-V的机遇与标准化挑战 - RISC-V的开放性和定制潜力令人兴奋,但缺乏标准是一把“双刃剑”,需要像RVA23规范和即将发布的RISC-V服务器平台规范这样的基准来确保仓库级部署的兼容性[2] - 谷歌正通过RISC-V国际组织参与QoS和RVA23等标准的制定,并作为RISE项目的创始成员,加速Linux和LLVM的上游开发[3] 从ARM移植中汲取的经验 - 谷歌移植了超过3万个软件包,覆盖了包括YouTube、Spanner和BigQuery在内的主要工作负载,这些负载几乎占其计算资源的一半[2] - 移植过程通过集中协作、自动化和AI生成的变更来实现,为大量工作负载提供了自助服务,实际过渡比预期顺利,开发者担心的工具链崩溃问题大多只是配置、构建路径等“琐碎”小问题[2] - 少数技术问题包括浮点精度差异(通过标准化为float128解决)和一些极少的内存排序错误[2] 人工智能在架构迁移中的关键作用 - 谷歌将其Gemini AI模型应用于4万个ARM移植修改,对其进行分类以便未来自动执行更改[3] - 目前AI代理负责安全、渐进地进行部署,其过程往往难以被团队察觉[3] - 公司通过RISE和RISC-V International,利用Gemini计划的资助金资助学术界人士推进人工智能驱动的移植工作[3] 实现RISC-V仓库级规模的关键要素 - **高性能硬件**:需要一款“酷炫的汽车”——即高性能服务器级SoC,至少有64个核心,每个核心支持4GB以上的内存,并优先考虑性能、可靠性和可维护性[3] - **全面测试**:遵循内部“碧昂丝法则”(“如果你喜欢它,就应该测试它”),强调关键功能必须经过全面测试以简化多架构移植[3] - **社区协作**:需要“朋友们”——即强大的社区协作,以打造“开箱即用、编译运行”的强大软件生态系统[3] - **强制功能**:未来的RISC-V超路线图需要标准化规范,并强制包括分支记录(类似英特尔的LBR或ARM的BRBE)、侧信道加固加密和MMU支持等功能以确保安全[3]
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网· 2025-12-13 20:05
文章核心观点 在算力成为基础设施的时代,产业各界正从芯片架构、软件生态、商业应用等多维度探索能够穿越周期、占据价值链顶端的技术路径与战略 核心在于通过软件定义、生态协同、应用驱动和系统级创新来突破硬件限制,构建自主可控的AI算力体系 [1][3][35] 技术路径与架构创新 - 算力芯片发展面临核心矛盾:摩尔定律放缓导致传统处理器迭代变慢,而生成式AI对算力的需求呈指数级增长 [7] - 应对矛盾的主流方向是推动“异构计算”,但带来了编程复杂度激增和软件兼容性差的新瓶颈 [7] - 反对指令系统碎片化,认为现有指令系统足以支撑架构创新,RISC-V应成为产业统一标准,其包容性可整合CPU、GPU及AI处理器特性 [9] - 计算芯片产业呈现螺旋式发展,未来将回归融合异构特性的CPU中心化架构 [9] - 在工艺受限背景下,需依靠新的技术路径超越国际领先者,国内创新企业路径呈现多元化特征 [32] - 数据中心AI芯片部分企业摒弃对单卡算力的盲目追求,转而构建更高效的系统,例如TPU路线通过打造大规模超节点、省去交换机和HBM,在集群层面追求更高性价比 [33] - 大算力芯片正在向三维架构变革,先进封装及其检测设备成为决定性能和良率的核心,光电合封被认为是下一代AI算力的基石,能以数量级优势提升集成度、降低功耗 [33] 软件生态的关键作用 - 软件生态对算力芯片产业具有决定性作用,生态是绕不开的命题,X86架构历经四五十年沉淀的软件生态壁垒极高 [7] - 用户选择的核心在于软件优化的积累,而非单纯硬件性能 [8] - 当前算力性能突破需跨学科交叉与软件深度优化双轮驱动,通过软硬件协同优化,在现有制程限制下实现算力效能最大化 [8] - 中国半导体受全球趋势及制程限制,必须通过软件定义算力,打破传统软硬件隔阂 [8] - 软件生态是GPU硬件行业的胜负手,其竞争已超出硬件性能本身 [16] - 软件层面需要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力 [17] - 破局国产算力技术生态需要拥抱开源,构建开放、统一的技术体系,避免“烟囱式”发展 [18] - 国产AI推理芯片的发展方向之一是软件生态兼容,以平衡算法迭代与算力利用率 [28] 产业发展趋势与挑战 - 2025年,AI芯片消耗将迎来重要转折,推理芯片消耗量或将超过训练芯片,源于企业端推理需求的爆发,例如谷歌日调用量已达43万亿Token,字节跳动近期或突破40万亿 [27] - 全球算力投资资本支出预计将超过4600亿美金,超过美国登月计划的总投入,中国市场中BAT等互联网大厂占据了68%以上的份额 [16] - AI商业化主战场包括AIGC在数字人、游戏、影视行业,今年国内产值预计超1000亿,全球数字内容生成市场规模已近500亿美金,加上AI编程领域、虚拟交互 [16] - 国产算力行业将迎来淘汰赛,由于系统级产品研发需海量资金投入,今年国内算力企业正全力冲击资本市场,预计未来一年A股和港股至少6家公司冲刺上市,资金技术储备不足、生态布局薄弱的企业或将加速出局 [17] - 大模型发展有从“百模大战”向“十模争锋”的收敛趋势 [12] - 模型发展正逐渐走向集约化路线,不是只比谁规模大,而是看谁能用最少的数据、最少的算力、最少的能耗做出好用的模型 [13] - 中国已成为大模型领域的开源生态领导者,HuggingFace Top10模型中,9个来自中国公司,在实际商业化场景中,中国开源模型生成的Token量已超过全球其他开源模型总和 [16] - 中国AI发展路径为“数据飞轮”模式:应用生产数据-数据训练算法-算法定义芯片-芯片赋能规模化应用,区别于美国通过政策强推技术突破的路径 [27] 企业实践与解决方案 - 燧原科技得益于丰富的商业化应用场景,产品迭代获得了坚实支撑,国民级爆款应用已经用到了燧原的算力 [17] - 鹏城实验室作为国家实验室定位“保底线”,致力于保障国产算力主权和模型的自主可控 [13] - 鹏城实验室发布了2000亿参数的大语言模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包括所有数据和数据配比、权重和训练环节 [13] - 鹏城实验室正与气象、金融、文博、生态环境、智能制造等行业合作,推动大模型在典型场景中的示范应用 [13] - 摩尔线程提供了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架,到底层MUSA计算库及KuaE集群平台的全栈软件支持 [23] - 摩尔线程构建了贯穿训练前、中、后期的智能工具体系,包括SimuMax支持训练资源规划与时间估算,慢节点检测系统,分布式Profiling系统等 [23] - 对于特定大模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算利用率会从40%降至30%,训练时间也能被大幅压缩至23天 [21] - 大模型训练完成时间越短越好,最好不要超过1个月 [21] - 云天励飞已完成芯片架构升级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵 [29] - 国产AI推理芯片的发展方向包括突破存储技术瓶颈支持3D memory技术,以及通过异构计算优化性价比,目标在未来三到五年内让百万Token成本降至1元以内 [28] 边缘与端侧算力创新 - 随着桌面级AI应用井喷,专为这些场景设计的LPU架构等应运而生,它们通过3D DRAM堆叠等技术,在有限功耗和成本下实现惊人的内存带宽 [33] - 在端侧AI芯片方向,存算一体与近存计算成为关键,例如将计算单元嵌入存储芯片的3D-CIM架构,或在LPDDR内存中集成处理能力的PIM方案,目标是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大模型 [33]
CPU,为何“偷偷转型”?
36氪· 2025-12-13 12:10
行业里程碑与核心议题 - 2024年GPU销售额首次超越CPU,标志着半导体产业进入由加速计算主导的新周期[1] - 核心议题在于:随着GPU、NPU、ASIC等加速器接管大规模并行计算任务,传统CPU的角色与未来定位受到挑战[1] - GenAI计算重心的转移并未消除对主机处理器的需求,但彻底改变了对CPU性能指标的定义[1] CPU面临的挑战与效率瓶颈 - 传统以CPU为中心的架构在处理AI工作负载时效率低下,存在数据多次搬运的问题,导致昂贵的加速器硬件资源利用率受限,推高系统整体功耗与成本[2] - 现代CPU依赖的“推测执行”技术在处理主要由大规模向量和矩阵运算构成的AI负载时,容易出现预测失败,导致流水线频繁刷新,造成额外的能源浪费与延迟[2] 处理器行业的革新方向 - 第一层革新是微架构层面的“去推测化”,例如“基于时间的确定性执行模型”专利,它摒弃推测机制,采用静态调度策略,指令仅在数据就绪的确定时刻分发,以更低的晶体管开销和功耗实现高可扩展性[3] - 第二层革新是系统级架构的“专用化分流”,例如将网络排序、服务质量管理和数据预处理功能从CPU软件栈剥离,下沉至“网络附加处理单元”等专用硬件,实现数据路径的硬件加速[3] - 主流x86处理器通过集成AMX等专用加速指令集进行自我进化,优化对bf16和int8等低精度数据类型的处理能力,以提升自身处理矩阵运算的效率[4] AI时代CPU的市场需求与应用场景 - 尽管训练端需求高涨,但推理端市场对成本和能效敏感,为新型CPU提供了广阔空间,美国数据中心CPU需求预计将保持7.4%的复合年增长率[5][6] - 对于参数量在7B至13B之间的中小模型或单用户实时交互请求,现代服务器CPU已能提供足够吞吐量,利用公有云中大量利用率低于20%的闲置CPU资源进行推理,具有显著的总拥有成本优势[6] - AI大模型对内存容量的渴求重塑了CPU价值,CPU主内存通过CXL等高速互联技术与GPU共享,充当加速器的L4缓存,内存通道数量、带宽及互联速度成为比核心频率更关键的选型指标[7] - 在边缘计算和终端设备领域,异构协同需求超越单一芯片性能,CPU负责低延迟逻辑控制和实时交互,在语音转文字、复杂逻辑调度及实时运动控制等场景中响应速度优于GPU[7][8] 产业竞争格局与主要参与者 - 专注于AI专用架构的初创企业开始冒头,例如以色列公司NeuReality完成3500万美元A轮融资,总融资额达4800万美元,其NR1芯片被定义为“网络附加处理单元”,集成了Arm Neoverse核心及多个专用引擎,声称能将AI应用总拥有成本改善10倍[9] - 传统巨头进行战略调整与生态融合,英伟达于2025年9月宣布向英特尔投资50亿美元并开展基础设施合作,表明高性能x86 CPU作为异构集群通用底座和生态入口的战略价值依然重要[10] - Arm架构在服务器领域份额持续攀升,预计2025年将占据全球服务器出货量的21.1%,得益于AWS自研Graviton芯片及富士通等厂商的推动,富士通与Scaleway合作利用基于Arm的CPU平台构建高能效AI推理环境[10][11] - 市场呈现复杂生态:在核心AI训练集群中,为保证软件生态兼容性和稳定性,x86 CPU仍是首选;未来市场将是x86与Arm并存、通用CPU与专用AI CPU互补、CPU与加速器深度协同的阶段[11]
英伟达投资新思,背后原因曝光
半导体行业观察· 2025-12-04 08:53
合作背景与战略意义 - 工程领域已成为计算密集型问题,仿真、验证和建模工具对芯片、汽车、工业系统等现代产品至关重要[1] - 英伟达与新思科技宣布开展多年广泛合作,利用英伟达GPU、AI模型和数字孪生平台加速新思科技EDA、仿真和多物理场产品组合的开发[1] - 英伟达将以每股414.79美元价格向新思科技普通股投资20亿美元,以加强合作关系[1] - 合作旨在整合计算加速、AI辅助工程、数字孪生和求解器重构技术,覆盖从晶体管级设计到最终物理产品的所有工程环节[2] 技术合作细节与迁移计划 - 合作范围远超传统单一工具或工作流程的狭隘合作,涉及芯片设计、物理验证、光学仿真、分子建模、机械分析和电磁工具等多个领域[2] - 新思科技将利用英伟达的CUDA、AI框架、NeMo代理、NIM微服务和Omniverse平台优化其产品组合[2] - 目前已有"二十多个"应用程序实现了一定程度的GPU加速,但多物理场和电磁工作流程需要进行深度算法重写才能达到预期性能提升[4][5] - 技术迁移是一个持续多年的过程,预计将持续到2026年和2027年[5] - 计算光刻领域的合作已取得进展,台积电作为主要合作伙伴,仿真时间缩短了一个数量级[5] 精度要求与AI融合挑战 - 工程仿真领域存在AI友好型低精度计算与高精度双精度(FP64)要求之间的矛盾,许多领域如流体动力学、有限元模拟等需要双精度求解器保证精度[9] - 英伟达Blackwell硬件优先考虑AI量化格式而非增强64位计算能力,导致性能/功耗/成本权衡未遵循历史趋势[9] - 部分算法可通过数学重构在混合精度下运行而不损失精度,部分算法将完全使用FP64编码,未来AI模型成熟后可覆盖部分流程[9] - AI在工程工作流程中被定位为辅助层而非替代品,主要用于探索设计空间、生成边界条件、分析日志和自动化重复性任务,基于物理的求解器仍是生产工作流程基石[20] 市场机遇与行业影响 - 合作被视为开拓新市场机遇的关键,仿真和建模市场规模有望通过降低成本和速度门槛实现扩大[11] - 半导体行业仿真收入占比14%-15%,而其他大多数行业如航空航天、汽车、能源等仅占2%-4%,这些行业严重依赖物理原型和测试[12] - 如果仿真成本更低、速度更快,更多工程工作可转移至虚拟领域,这将显著增加对加速仿真的总体需求[12] - 合作将新思科技的客户资源深度与英伟达的硬件和软件平台结合,覆盖半导体、工业工程、汽车、航空航天和能源等广泛领域[14] 客户部署与商业模式 - 加速工作流程的部署方式尚未明确,可能包括本地部署、超大规模云服务或新思科技自有云平台[15] - 定价模式尚未确定,可能涉及永久许可、按使用量付费、混合套餐或云计量模式[15] - 对于无法获得高密度加速计算资源的客户,云部署被视为关键途径,英伟达将云部署视为向可扩展、按需模拟长期转型的一部分[15] 技术中立性与竞争格局 - 合作并非排他性,新思科技工具将继续支持CPU和其他硬件环境[17] - 但为CUDA深度重构求解器需要大量工程设计投入,可能在实际操作中导致对英伟达平台的偏好[17] - 新思科技强调其软件架构具有可移植性,历史上已根据客户需求将工具移植到x86、ARM和定制硬件[18] - 异构环境预计将持续存在,运行大型混合集群的团队需密切关注求解器性能随技术栈重写的演变[18] 战略定位与行业展望 - 对英伟达而言,这是对人工智能推理和训练之外新型计算需求的押注,旨在开拓生产实体产品和运行复杂模拟的行业市场[23] - 对新思科技而言,向加速计算和AI驱动工程转型是开拓新产品类别并重塑现有产品的机会,特别是增强多物理场仿真功能[25] - 合作致力于将仿真、验证和数字孪生技术推向只有借助大规模加速计算和AI才能实现的形态,主要基于英伟达的硬件和软件平台[25]
ICCAD 探馆直播!五大厂商共话AI算力的中国生态
半导体行业观察· 2025-11-14 09:44
文章核心观点 - AI算力已成为创新的核心驱动力 中国智能算力规模在2024年同比增长高达74.1% [1] - 产业面临“内存墙”、“工艺墙”、“互连墙”三重技术瓶颈 正加速推进Chiplet先进封装、异构计算、RISC-V架构革新及分布式集群等技术路径 [1] - 为应对从工具到架构、从算力融合到生态协同的多层挑战 行业将举办主题论坛探讨共建自主可控的AI算力生态 [1] 行业趋势与挑战 - AI训练、推理与部署的能耗和成本曲线全面上扬 [1] - Chiplet架构面临跨工艺、跨封装的系统验证、互联与标准化新难题 [6] - 算力呈现多元并存格局 涵盖CPU、GPU、NPU、FPGA、DPU及RISC-V等新兴架构 系统级实现Scale-Up与Scale-Out的智能协同成为关键课题 [6] 论坛活动与议题 - 活动形式包括主题圆桌论坛和ICCAD 2025展馆探访 直播时间为2025年11月20日14:00-16:00 [2][7] - 圆桌论坛将探讨四大议题:自主可控算力体系的突破起点、从Chiplet构建可演进算力架构、多元算力融合与AI生态协同、产业链协同创新以提升全球竞争力 [7] - 展馆探访将聚焦奇异摩尔、芯和半导体、达摩院玄铁、安谋科技Arm China和紫光云展台 展示最新行业趋势 ICCAD 2025预计汇聚8000+行业精英、2000+IC企业及300+上下游服务商 [7] 参与企业与技术维度 - 论坛汇聚芯和半导体、奇异摩尔、达摩院玄铁、安谋科技Arm China与紫光云五大代表企业 [1] - 讨论将覆盖EDA、IP、Chiplet、RISC-V与云服务五大技术维度 旨在解决从IP到云的协同创新闭环问题 [1][6] - EDA工具层关注AI辅助设计如何赋能从芯片到系统的全栈设计 确保国产AI算力自主可控 [6]
点火!市值蒸发3400亿后,“安防老炮”业绩重回双位数增长
市值风云· 2025-10-24 18:09
人工智能行业动态 - 人工智能领域的技术突破正以前所未有的力量重塑产业格局 [3] - 资本市场对AI反应热烈 英伟达市值突破万亿美元 AMD一年内股价翻番 [3] - AI概念股如寒武纪 浪潮信息 中际旭创等公司业绩与市值齐飞 [3] 特定公司表现 - 一家我国最早介入人工智能领域的科技巨头在AI狂欢中身影略显沉寂 [4] - 该公司市值从2021年初的6400亿巅峰缩水至3000亿出头 [4] - 该公司市值蒸发约3400亿 [4]
估值超210亿元,明星股东“云集”!知名芯片公司冲刺IPO上会,多家A股回应持股!
搜狐财经· 2025-10-18 16:56
IPO基本信息 - 上交所上市审核委员会定于2025年10月24日审议沐曦集成电路首发事项 [1] - 公司计划发行不超过4010万股A股普通股 [3] - 公司拟募集资金39.04亿元 [3] 公司概况与业务 - 公司于2020年9月成立于上海 并在多地建立了全资子公司暨研发中心 [3] - 核心成员平均拥有近20年高性能GPU产品端到端研发经验 [3] - 公司致力于为异构计算提供全栈GPU芯片及解决方案 应用于智算、智慧城市、云计算、自动驾驶、数字孪生、元宇宙等领域 [3] - 公司主要收入来源为训推一体芯片曦云C500系列的销售 [3] 财务与估值数据 - 公司最近一次外部股权融资对应的投后估值为210.71亿元 [3] - 2024年度公司营收为7.43亿元 亏损14.09亿元 [3] 募投项目 - 募集资金中24.59亿元将用于新型高性能通用GPU研发及产业化项目 [3] - 4.53亿元将用于新一代人工智能推理GPU研发及产业化项目 [3] - 9.91亿元将用于面向前沿领域及新兴应用场景的高性能GPU技术研发项目 [3] 股权结构与股东 - 创始人陈维良合计控制公司22.94%的股份表决权 为实际控制人 [4] - 股东包括私募大佬葛卫东及其旗下的混沌投资 以及经纬创投、和利资本、红杉资本等 [5] - 上市公司中山公用通过新能源基金对沐曦集成电路进行了早期投资 [5] - 上市公司闰土股份通过闰土锦恒出资2.2亿元 持有无锡同创致芯44%份额 同创致芯出资1亿元持有沐曦集成电路首次公开发行前股份170.85万股 持股比例为0.47% [5]