Workflow
华为昇腾910B
icon
搜索文档
阿里首次证实自研AI芯片PPU存在,大规模出货已有一年
36氪· 2026-01-29 11:32
阿里巴巴自研AI芯片“真武810E”的披露与进展 - 公司首次主动证实自研AI芯片PPU的存在,该芯片被命名为“真武810E”,由旗下平头哥研发,但未披露工艺制程和代工方等关键信息 [1] - 该芯片采取GPGPU技术路线,接近英伟达GPU路径,内存为96G HBM2e,片间互联带宽达700GB/s,可应用于AI训练、推理和自动驾驶 [1] - 平头哥早在2020年秘密启动研发,并于2022年底至2023年初完成研发和场景验证,此前研发和验证过程基本只对内部开放 [1] PPU芯片的商业化进程与市场推广 - 2025年初,公司开始与国内算力服务商洽谈合作,为PPU批量上市做准备,初期有服务器厂商因担心公司销售决心而犹豫 [2] - 2025年一季度后,公司积极向算力服务商、服务器厂商及企业机构销售PPU,推动其商业化落地 [2] - 2025年9月,央视报道首次公开披露PPU芯片参数,并与多款国内外芯片进行对比,但公司当时仍未正式证实芯片存在 [2] - 2025年11月,公司向企业客户销售搭载PPU芯片的“Al Stack大模型训推软硬一体解决方案” [2] PPU芯片的性能表现与市场应用 - 经测试,阿里PPU与百度昆仑芯P800在运行适配优化模型时,其Token吞吐效率优于英伟达H20 [3] - 公司内部评测认为,真武810E整体性能超过英伟达A800和主流国产AI芯片,与英伟达H20相当 [3] - 截至2026年1月末,PPU已对外出货近一年,被大规模用于阿里千问系列模型的训练和推理,并在阿里云实现多个万卡集群部署,服务超400家客户 [3] 国产AI芯片市场的竞争格局 - IDC数据显示,2025上半年国产AI芯片市场中,华为昇腾市场份额居国内第一,阿里平头哥居第二,百度昆仑芯居第四 [3] - 行业调研显示,至少有9家中国AI芯片公司的出货量或订单量已超过1万卡,包括华为、阿里、百度等大厂背景企业,以及寒武纪、沐曦等创业公司 [4] - 其中出货规模大的公司累计出货量已达10万卡级别,规模较小的公司如曦望、清微智能等2025年出货或订单规模也在1万卡以上 [5] 国产AI芯片的定价、认可度与未来展望 - 国产AI芯片当前单卡价格在3万至20万元人民币不等 [5] - 出货量或订单量达万卡规模,表明国产AI芯片在性能、稳定性和总拥有成本上已获市场认可,竞争进入围绕稳定性、软件生态和商业化服务的更深层次阶段 [5] - 多位半导体产业人士表示,2026年随着国产AI芯片代工产能提升,国产AI推理芯片出货量将迎来一轮爆发式增长 [5] - 万卡级出货量企业批量出现,意味着产业试错开始进入“规模化交付验证”阶段 [6]
并行科技赵鸿冰:如何最大化发挥算力效益?丨GAIR 2025
雷峰网· 2025-12-24 12:56
文章核心观点 文章基于并行科技副总裁赵鸿冰在GAIR 2025大会上的演讲及后续访谈,阐述了当前算力市场的多业态发展、从用户视角构建算力服务体系的必要性,并重点介绍了并行科技通过“厂网结合”模式构建算力网络、实现全国范围资源高效调度与商业化的实践与思考 [2][3][4] 算力市场业态与用户需求 - 当前算力市场呈现多场景、多业态爆发式增长,已形成四大核心业态:算力租赁(基础形态,交付“裸金属”资源)、算力服务(按需提供,匹配业务场景)、算力运营(复杂调度平台管理)、算力网络(更高维度,跨平台整体调度)[3][24] - 从用户视角出发,核心诉求归结为三点:可用(稳定供应)、好用(高效性能)、降本(高性价比),所有产品平台均围绕这三大需求设计 [22][23] - 根据计算精度和场景,算力市场可分为四类:尖端超算(如“天河”,需十万/百万核级,FP64精度)、通用超算(万核以下,高校科研)、业务超算(企业仿真)、智算(GPU加速,FP16/FP8/FP4精度,增长最快)[18][19] 并行科技的商业模式与运营实践 - 公司采用“厂网结合”特色经营模式:“厂”指重资产布局(如自建万卡集群),“网”指轻资产扩张,连接国内47个智算中心与15个超算中心,总计62个算力节点 [4][27] - 其算力网络可调度资源总量超过200万CPU核心、5万多张GPU卡,服务用户规模突破16万,商业化输出累计超过200亿核时、近2亿卡时 [4][27] - 公司已打造成熟的算力资源接入标准体系,根据规模、调度能力等维度对资源分级,实现快速接入与网络化输出 [7] - 商业模式以清晰的价值分层驱动利益分配,产业链分为前端市场销售、产品平台层、售后服务层、底层重资产投资与IDC托管,合作伙伴可根据自身优势匹配对应价值环节 [8] 技术能力与资源选型 - 基于18年行业经验与数据积累,公司构建了算力性能预测模型,在小规模场景下预测误差控制在2%以内,中大规模场景误差为个位数,有效支撑用户资源选型决策 [4][35] - 资源选型核心原则是“没有绝对最优的算力资源,只有最适配的选择”,例如在具身智能场景实测中,H200的性价比可能优于性能领先的B200 [4][32] - 在大规模推理场景中,消费级显卡5090因其高性价比成为多数客户的首选 [4][36] - 针对异构算力虚拟化损耗问题,容器技术是主流解决方案,可实现近乎零损耗;对于有极致性能需求的客户,可直接采用裸金属或高性能集群 [9][10] 行业趋势与未来展望 - 人工智能是全球竞争制高点,算力规模年复合增长率达到52.3%,头部科技企业的FOMO情绪及对发展窗口期的担忧推动了适度超前的算力基建投入 [5][6] - 推理需求正成为下一波算力增长核心引擎,OpenAI 2025年预估营收达130亿美元是推理业务规模化发展的直接体现,行业正朝此方向迈进 [11] - 推理成为主流后,算力产业核心诉求将变化:除可靠性外,更需要大规模弹性资源调度能力和更精细的资源匹配能力(如针对DeepSeek推理P阶段与D阶段的不同特征) [12] - 超节点(如英伟达NVL72、华为384超节点)本质是小型化超级计算机,通过高密度集成与高速互联降低通信开销,其发展需要软硬协同,具备超算技术积累的企业更具优势 [13][14][15] - 国产芯片(如华为昇腾910B)在部分适配场景中性能可与A100比肩,且具备价格优势,能提供更高性价比选择 [40] 公司市场地位与客户布局 - 公司在算力服务企业中商业化输出总量位居第一 [27] - 核心客群覆盖国内前四五百所头部高校(如清华大学、复旦大学)、中科院旗下数百家研究所,以及美的、三一重工、比亚迪、小鹏汇天、智谱等知名企业 [43][45]
中国芯片技术取得多项突破性进展
新浪财经· 2025-10-18 21:27
颠覆性算力芯片 - 北京大学研发全球首款24位精度模拟矩阵芯片,基于阻变存储器,通过动态误差校准算法将传统模拟计算精度从8位提升至24位,误差率低于0.1% [1] - 该芯片在求解128×128矩阵方程时,计算吞吐量达顶级GPU的1000倍以上,能效提升超100倍,应用于6G通信基站信号处理仅需3次迭代即可恢复高清图像,误码率与32位数字计算相当 [2] - 清华大学开发全球首颗集成存储、计算与片上学习的忆阻器芯片,能效较传统ASIC提升75倍,支持硬件端直接训练AI [4] 核心工艺与材料 - 国光量超发布4英寸离子束刻蚀机,精度达0.02纳米,性能较国际主流2nm设备提升百倍,中微半导体实现1纳米等离子刻蚀工艺 [7] - 璞璘科技交付全球首台半导体级步进式纳米压印光刻机,上海微电子浸没式光刻机量产,通过SAQP技术实现等效5nm试产,国产设备配套率超50% [7] - 复旦大学研制全球首颗二维-硅基混合架构闪存芯片"无极",集成5900个晶体管,读写速度比传统闪存快百万倍,良率达94.3% [7] 高端芯片设计与制造 - 小米玄戒O1为中国大陆首款自研3nm手机SoC,集成190亿晶体管,性能接近苹果A18 Pro,能效提升30% [8] - 华为昇腾910B支持8卡互联,大规模应用于政务云及自动驾驶,国产AI算力依赖度从95%降至50% [9] - 龙芯3C6000采用完全自主"龙架构"指令集,64核性能超越英特尔至强8380,车规级芯片东风DF30 MCU实现全流程国产化,功能安全达最高等级ASIL-D [10] 未来方向与挑战 - 北京大学与港城大联合研发全频段6G芯片,速率达120Gbps,支持天地一体化组网 [11] - 国光量超刻蚀机推动量子芯片良率提升,中国电信推出504比特超导量子计算机"天衍504" [12] - 7nm以下先进制程设备仍依赖EUV光刻机,国产EUV预计2027年攻关,GPU工具链与EDA设计软件需加速完善 [13]
重磅!阿里自研AI芯片技术参数曝光!
美股IPO· 2025-09-17 09:18
中国联通三江源绿电智算中心项目进展 - 项目已签约1747台设备、22832张算力卡,总算力达3479P [3] - 阿里云贡献1024台设备、16384张平头哥算力卡、1945P算力 [3] - 中科院提供512台设备、4096张沐曦算力卡、984P算力 [3] - 北京京仪供应83台设备、1328张壁仞算力卡、450P算力 [3] - 中昊芯英提供128台设备、200P算力 [3] 国产AI芯片技术参数对比 - 平头哥PPU采用96GB HBM2e显存,片间带宽700GB/s,功耗400W,规格接近英伟达H20 [3] - 壁仞104P算力卡采用32GB HBM2e显存,片间带宽256GB/s,功耗300W [3] - 央视公开对比平头哥PPU、英伟达A800/H20、华为昇腾910B、壁仞104P等算力卡参数 [3] 国产AI芯片产业生态 - 项目汇聚平头哥、沐曦、壁仞、中昊芯英、太初元碁、燧原科技、摩尔线程等国产芯片企业 [4] - 国产算力将在关键领域支撑数字经济发展 [6] - 参数公开对比促进行业良性竞争与技术交流 [6] - 项目彰显中国绿电智算建设实力,体现国产AI芯片产业蓬勃发展 [7] 媒体报道与行业影响 - 阿里巴巴AI芯片亮相《新闻联播》获得国家级媒体曝光 [1] - 中国联通三江源项目登上《新闻联播》展示建设成效 [4] - 国产算力发展将提升中国在全球AI算力领域的竞争力 [6]
阿里自研AI芯片曝光!
是说芯语· 2025-09-17 07:58
项目概况 - 中国联通三江源绿电智算中心项目获央视《新闻联播》重点报道 彰显绿电智算领域建设实力[1][5] - 项目涵盖已签约及拟签约合作 涉及阿里平头哥 沐曦股份 壁仞科技 中昊芯英 太初元碁 燧原科技 摩尔线程等国产AI芯片品牌[1][3] 已签约算力规模 - 已签约设备总数达1747台 算力卡总数22832张 总算力水平3479P[1] - 阿里云投入1024台设备 搭载16384张平头哥算力卡 提供1945P算力[1] - 中科院投入512台设备 配备4096张沐曦算力卡 提供984P算力[1] - 北京京仪投入83台设备 配备1328张壁仞算力卡 提供450P算力[1] - 中昊芯英投入128台设备 提供200P算力[1] 拟签约算力规模 - 拟签约项目总算力预计达2002P 涉及太初元碁 燧原科技 摩尔线程等品牌算力卡[3] 国产AI芯片性能对比 - 央视特写镜头展示平头哥PPU采用HBM2e显存 容量96GB 片间带宽700GB/s 功耗400W 性能超NVIDIA A800 接近H20[3] - 华为昇腾910B采用64GB HBM2显存 片间带宽392GB/s 功耗350W[3] - 壁仞104P算力卡配备32GB HBM2e显存 片间带宽256GB/s 功耗300W[3] 行业意义 - 项目体现国产AI芯片产业蓬勃发展态势 国产算力将在关键领域发挥重要支撑作用[5] - 参数公开对比促进行业良性竞争与技术交流 推动国产AI芯片技术迭代升级[5] - 项目为我国数字经济高质量发展注入强劲动力 提升全球AI算力领域竞争力[5]
帮主郑重:英伟达市值破3.9万亿!AI军备竞赛的终极赢家是谁?
搜狐财经· 2025-07-09 08:47
英伟达市值与市场地位 - 英伟达市值突破3 9万亿美元 相当于英国所有上市公司总市值 超过加拿大和墨西哥股市总和 [1] - 公司成为全球科技股中无可争议的龙头企业 [1] 股价表现与机构观点 - 英伟达股价上周四收于160美元创历史新高 花旗银行给出190美元目标价 隐含15%上涨空间 [3] - 主权国家AI基础设施需求爆发是核心驱动因素 法国政府联合企业部署AI超算采用英伟达芯片 新加坡国家AI战略明确要求关键设施使用英伟达硬件 [3] - 花旗预测主权国家AI投资2025年超800亿美元 2030年可能突破2000亿美元 [3] 行业竞争格局与技术优势 - 英伟达在高端AI芯片领域占据90%以上市场份额 [3] - CUDA生态和开发者社区构成核心壁垒 AMD MI300芯片市场份额不足15% [3] - 华为昇腾910B等竞品仍难以撼动其技术领先地位 [4] 商业模式转型与生态布局 - 从单纯卖芯片转向构建AI基础设施生态 投资OpenAI xAI等大模型公司形成业务闭环 [4] - 与诺和诺德合作利用AI加速药物研发 拓展医疗领域应用场景 [4] 技术路线与长期前景 - 每年推出新一代芯片 Blackwell架构后还将推出Rubin架构 性能提升幅度可达900倍 [5] - CEO黄仁勋认为AI和机器人技术是数万亿美元级别市场 [5] - 公司被视为AI时代的规则制定者 类似当年微软在PC时代的地位 [5] 潜在挑战 - 远期市盈率32倍 虽低于五年平均水平 但股价涨幅可能已部分透支未来预期 [4] - 美国出口管制政策影响显著 H20芯片对华出口限制导致一季度减值45亿美元 [4]
美国全球封锁华为昇腾芯片
国芯网· 2025-05-14 18:46
美国商务部对华为昇腾AI芯片的新规 - 美国商务部出台新规封锁华为昇腾AI芯片 在全球范围内使用该芯片可能违反美国出口管制 [1][3] - 新规针对华为昇腾910B、910C、910D等先进计算芯片 违反规定可能面临美国商务部的处罚 [3] 受管控芯片的技术标准 - 管控范围包括三类高算力芯片: 1 总处理性能(TPP)≥4800TOPS 或 TPP≥1600TOPS且性能密度≥5.92 [4] 2 TPP在2400-4800TOPS之间且性能密度1.6-5.92 或 TPP≥1600TOPS且性能密度3.2-5.92 [4] 3 HBM内存带宽密度>2GB/秒/平方毫米 [5] 违规后果与行业影响 - 违反规定最高可面临20年监禁 [6] - 新规被专家解读为强制全球企业在华为与英伟达芯片之间"选边站" [6]
特朗普拒不妥协?美债危机倒逼中美谈判,英伟达CEO暗藏玄机
搜狐财经· 2025-05-06 15:27
中美贸易谈判 - 美国主动向中国递出谈判"橄榄枝"但中方回应"正在评估"要求美方先拿出诚意 [2] - 美国关税战导致消费者物价上涨、农民订单流失、制造业原材料短缺《华尔街日报》警告经济衰退风险上升 [2] - 日本表态可能抛售1.1万亿美元美债动摇美元霸权基础 [2] 芯片行业动态 - 特朗普政府加码芯片出口限制禁止英伟达向中国出售性能缩水的"特供版"芯片 [4] - 2024年中国芯片自给率达30%预计2025年提升至45%华为昇腾910B等国产芯片性能接近英伟达A100 [4] - 英伟达CEO黄仁勋警告限制出口将加速中国自研芯片 [4] - 历史案例显示技术封锁反促中国突破:华为5G基站全球部署超150万个上海微电子28nm光刻机已量产 [7] 半导体企业影响 - 中国市场占英伟达数据中心业务40%收入若中国全面转向自研其股价可能下跌30% [7] - 美国芯片封锁策略存在潜规则:仅针对中国未掌握技术一旦突破即放开限制用低价冲击中国产业链 [6] 产业竞争格局 - 中美博弈进入新阶段中国在新能源、人工智能等赛道具备公平竞争实力 [9] - 美国科技巨头因政策限制面临市场份额流失风险传统行业如农业、制造业已为关税战付出代价 [7]
DeepSeek-R2发布在即,参数量翻倍,华为昇腾芯片利用率达82%!
搜狐财经· 2025-04-29 15:17
模型参数与架构 - DeepSeek-R2采用混合专家模型(MoE)架构,配备智能门控网络层以优化高负载推理任务性能 [5] - 模型总参数量达1.2万亿,较DeepSeek-R1(6710亿参数)提升约1倍 [5] - 规模对标ChatGPT的GPT-4 Turbo和谷歌Gemini 2.0 Pro [5] 硬件与算力效能 - 基于华为昇腾910B芯片集群训练,FP16精度下算力达512 PetaFLOPS,芯片利用率82% [7] - 昇腾910B集群算力达同规模A100集群的91%(华为实验室数据) [7] - 单位推理成本降至0.07美元/百万token,较GPT-4(0.27美元/百万token)下降97.4% [8] 供应链与生态合作 - 华为昇腾生态核心代工厂承接DeepSeek超算中心50%以上算力基建订单(拓维信息) [7] - 英博数科独家运营华北算力节点,储备3000P+AI算力(鸿博股份) [7] - 中科曙光提供国产液冷服务器集群,单机柜功率密度40kW [7] - 云暴智联为DeepSeek搭建政务大模型专用云,落地15个省级智慧城市项目 [7] - 新易盛CPO硅光方案通过验证,能耗降低35% [7] - 润建股份运维华南超算中心,年服务合同金额超5亿元 [7] - 中贝通信运维西北算力中心,储备1500P异构算力 [7] 国产化替代进展 - 昇腾910B集群降低对英伟达A100等海外芯片依赖 [10] - 华为昇腾910C芯片进入量产阶段,CloudMatrix 384超节点采用384颗910C芯片,或替代英伟达NVL72集群 [10]
DeepSeek重构算力基建长期价值的认知
国泰君安· 2025-03-14 15:10
报告行业投资评级 - 行业评级:增持 [1] 报告核心观点 - 市场低估了DeepSeek生态对算力需求的放大效应,其技术创新通过降低大模型训练和部署的准入门槛,反而扩大了整体市场规模,催生了海量推理算力需求 [3][8] - DeepSeek生态的崛起为国产AI芯片(如华为昇腾)提供了前所未有的替代机遇,凭借性价比和本地化部署优势,有望在企业级市场获得突破 [8] - 报告测算,DeepSeek生态或将产生近百万PFLOPS级别的推理算力需求,对应每年超过千亿元人民币的算力租赁市场 [8][108][110] 技术架构创新与成本突破 - **训练成本突破**:DeepSeek-V3仅使用278.8万GPU小时(H800)即完成训练,总训练成本为557.6万美元,刷新了大语言模型的经济性基准 [13] - **架构创新降低开销**: - 采用Multi-Head Latent Attention (MLA)机制,通过低秩联合压缩技术大幅减少KV缓存需求,降低内存占用和计算成本 [15] - 引入Auxiliary-Loss-Free负载均衡策略和Node-Limited Routing机制,优化MoE架构训练效率,减少通信开销 [18] - 采用Multi-Token Prediction (MTP)机制实现更密集的训练信号和高效数据利用,且MTP模块在推理时可移除 [19] - 设计DualPipe并行训练框架,将pipeline bubbles减少3倍,并实现计算与通信的高效重叠 [22] - **内存与精度优化**: - 通过激活重计算、参数异步更新等策略实现极致内存优化 [24] - 采用FP8混合精度训练框架,配合细粒度量化方案和高精度累加机制,在训练1万亿token后相对损失误差保持在0.25%内,显著降低内存和通信开销 [24][25] - **数据依赖减少**:DeepSeek-R1通过大规模强化学习(采用GRPO算法)替代昂贵监督数据,结合基于规则的奖励机制和少量CoT数据冷启动,大幅降低训练成本 [29][34] 推理效率优化与部署 - **双阶段推理架构**:DeepSeek-V3基于H800集群构建prefilling和decoding双阶段架构,平衡服务质量与吞吐量 [36] - **并行与调度策略**: - Prefilling阶段采用TP4、DP8、EP32混合并行架构,并引入冗余专家机制和动态负载统计优化负载均衡 [36] - Decoding阶段结合TP4、DP80和EP320架构,利用IBGDA技术优化通信,并通过计算重叠提升吞吐量 [38] - **降低部署门槛**:通过蒸馏技术将DeepSeek-R1能力迁移到Qwen-1.5B等小模型,大幅降低实际部署的算力需求和运营成本 [39][41] 算力需求认知重构与市场影响 - **短期市场震荡**:DeepSeek的低成本突破曾引发市场对高端AI芯片必要性的质疑,导致英伟达股价在2025年1月27日单日大跌超17%,市值蒸发超5600亿美元 [42] - **长期需求未动摇**:技术创新提升算力效率,但并未改变AI产业对高性能计算的刚性需求,反而通过降低准入门槛、刺激竞争和扩大应用规模,推动算力总需求增长 [43][47][65] - **隐性成本与运营挑战**:公布的训练成本未包含大量前期研发和试错投入;DeepSeek上线21天日活用户达2215万,导致算力供不应求,凸显了算力基建的重要性 [43][44] - **Scaling Law的延伸**:AI发展仍遵循扩展定律,DeepSeek的创新是在Scaling Law框架内的优化,后训练(Post-training)和测试时(Test-time)扩展催生了新的算力需求 [52][54][55][56] - **Agent与多模态趋势**:AI向Agent(如Manus)和多模态发展,任务分解精细化和多模态数据处理复杂性将进一步提高算力需求 [59][60][62][63] 市场扩张与生态落地 - **竞争持续加码**:OpenAI、Google、xAI、Anthropic等厂商在2025年初密集发布新模型,表明竞争格局未定,训练投入仍在持续 [66][68] - **C端需求爆发**:DeepSeek App上线20天内日活用户达2215万,2025年1月月活用户突破3370万;并通过接入微信搜索、百度搜索、腾讯元宝等平台进一步扩大用户基础 [70][71][72] - **B端生态加速落地**: - **云平台与一体机**:三大运营商云平台及阿里云、腾讯云、百度智能云等全面接入DeepSeek;华为、中科曙光、浪潮等推出DeepSeek一体机,加速企业本地化部署 [75][76][78][81][82] - **垂直行业应用**:金融、医疗、教育、汽车等行业已形成规模化应用,多家券商、银行、保险公司、车企等完成DeepSeek的本地化部署或深度集成 [87][89][90][91][93][94] 算力需求定量测算 - **总需求估算**:报告测算DeepSeek生态每日将产生约184,800亿tokens的推理需求,对应每秒需处理约3亿tokens [106][108] - **算力需求**:满足上述需求将产生约88.8万PFLOPS的推理算力需求 [108] - **硬件需求**:以NVIDIA H20(FP8算力296TFLOPS)估算,长期或需要300万张H20卡 [110] - **租赁市场规模**:假设H20租赁成本为3万元/月/台,则每月支出将达112.5亿元,对应每年1350亿元的算力租赁开支 [110] - **需求结构**:C端自有应用需求仅占总需求的2.6%,而云平台服务占比54.1%,大型平台集成占27.1%,企业级应用占16.2%,B端是主要需求来源 [108][113] 国产AI芯片发展机遇 - **国产芯片性能进展**:华为昇腾910B训练效率达A100的80%;昇腾910C在DeepSeek实测中AI推理性能达H100的60%左右 [8] - **生态融合优势**:DeepSeek从第一天起即支持华为昇腾芯片,并全系列模型上线昇腾社区Model Zoo,这种深度生态融合为国产芯片拓展企业级市场提供重要支撑 [8] - **现存技术差距**:国产芯片在FP8/FP64精度支持和芯片间高效通信等方面与国际领先产品存在差距 [8][110] - **替代机遇与挑战**:英伟达CUDA生态面临AMD ROCm、Intel SYCL及OpenAI Triton等开源方案的挑战;专用芯片架构(如Google TPU)在特定任务上展现出替代潜力,为国产芯片提供市场机会 [114][115]