AI计算

搜索文档
HBM,或被这种内存取代
半导体行业观察· 2025-06-02 10:28
英特尔与软银合作开发新型堆叠DRAM - 英特尔与软银联合成立Saimemory公司 致力于开发基于英特尔技术和日本高校专利的堆叠DRAM原型芯片 目标替代当前AI处理器广泛使用的HBM芯片 [1] - 项目计划2027年完成原型开发并评估量产可行性 商业化目标定于2030年前 [1] - 新型堆叠DRAM通过改进内部布线方式 预计功耗将比同类HBM芯片减少50% [1] 技术背景与行业现状 - HBM芯片存在制造工艺复杂 成本高 发热量大 功耗偏高等问题 当前全球仅三星 SK海力士和美光三家能量产最新一代HBM [1][2] - 软银表示若项目成功将优先获得芯片供应 合作方计划以日本数据中心市场为切入点 进而扩大全球影响力 [2] - 日本企业曾在1980年代占据全球70%存储芯片市场份额 但后期因韩国和台湾厂商竞争而退出主流市场 此次合作标志着日本试图重返存储芯片供应商行列 [2] 竞争格局与技术差异 - 三星去年已宣布开发3D DRAM和堆叠DRAM计划 NEO Semiconductor也在推进3D X-DRAM研发 但这些项目主要聚焦提升单芯片容量至512GB/模块 [2] - Saimemory的核心技术差异化在于优先解决功耗问题 而非容量提升 这直接针对数据中心在AI计算场景下的能耗痛点 [2]
奕斯伟计算正式递表港交所,冲刺RISC-V第一股
半导体芯闻· 2025-05-30 18:08
公司概况 - 北京奕斯伟计算技术股份有限公司向香港联交所递交招股书,计划在主板挂牌上市,或成为港股RISC-V"第一股" [1] - 公司成立于2019年,聚焦新一代RISC-V计算架构的研发与商业化,围绕智能终端与具身智能两大核心应用场景 [1] - 截至2024年,公司是中国RISC-V主控量产解决方案数量最多的提供商,也是中国最大的RISC-V全定制解决方案供应商 [1] - 截至2024年底,公司已商业化超100款系统级解决方案,服务客户超百家,覆盖消费电子、汽车、机器人等领域 [1] 业务板块 - 智能终端业务:通过集成RISC-V内核、自研处理硬件与平台软件,为消费电子与物联网客户提供智能控制、多媒体处理、人机交互等功能 [2] - 具身智能业务:在机器人与汽车等领域提供具备实时感知与响应能力的解决方案,支持设备自主与环境交互 [2] - 公司还通过授权专有IP模块、技术服务等方式拓展收入来源,实现模块化与平台化并举的商业模式 [2] 财务表现 - 2022至2024年,公司营业收入分别为19.997亿元、17.52亿元与20.25亿元人民币,收入保持稳定增长 [3] - 公司仍处亏损状态,主要源于高研发投入,体现其在RISC-V技术链中深耕的战略选择 [3] 行业背景 - RISC-V作为开放指令集,已成为替代ARM与x86的关键路径之一 [3] - 随着AI计算、物联网与智能制造快速发展,业界对可控、开放架构的计算平台需求日益增长 [3] - 公司构建起涵盖架构设计、IP授权、芯片开发与系统集成的完整产业链 [3]
【快讯】每日快讯(2025年5月28日)
乘联分会· 2025-05-28 16:34
国内新闻 - 北京市鼓励外资企业参与高级别自动驾驶示范区、机器人百场景、氢能等重点场景应用,并给予支持 [3] - 长安汽车计划未来5年推出7款以上30万级别高端汽车产品,并实现2025年全口径收入3000亿元、整体销量300万辆(其中新能源汽车100万辆) [4] - 吉利汽车近期将发射"千里浩瀚"等多颗卫星,年内完成星座一期卫星组网部署,实现全球实时卫星通信服务 [5] - 比亚迪刀片电池和闪充刀片电池提前通过新国标检测,新标准提高了热扩散测试和底部撞击测试要求 [6] - 五菱神炼电池3.0版本具备"五零"安全特性,4.0版本融入800V平台、CTB技术等创新技术 [7][8] - 广汽集团公布智能座舱AI计算装置专利,可在不改动原有硬件情况下扩展AI算力 [9] - 奇瑞汽车公布自动跟随机器人专利,通过多模式识别实现自动跟随和独立运行能力 [10] - 小马智行与迪拜RTA达成战略合作,计划2025年测试运营、2026年实现全无人商业化运营 [11] 国外新闻 - 欧洲理事会批准放宽二氧化碳减排目标,2025-2027年将基于三年平均表现评估车企合规性 [13] - 意大利4月新车销量同比增长2.71%至139,084辆,前4个月累计销量583,038辆(同比微降0.6%) [14] - 宝马宣布三年半内全系车型采用全新设计语言,包括Neue Klasse元素和Panoramic iDrive系统 [15][16] - 通用汽车将投资8.88亿美元在纽约工厂生产下一代V8发动机,以应对电动车市场需求不及预期 [17] 商用车 - 福田汽车与亿纬锂能合资设立新能源公司(注册资本5亿元),拓展新能源重卡电池租赁业务 [19] - 徐工发布全新一代"汉界"新能源轻卡品牌,在高安全、长续航、轻量化等方面实现突破 [20] - 江淮商用车发布25款战略新品,覆盖油、电、混、气四大动力领域,全面升级产品线 [21] - 奇瑞威麟皮卡首次出现在工信部公告目录,海外版本已获媒体认可,计划年内国内上市 [22][23]
汽车早报|小米SU7 Ultra最新锁单数超2.3万台 4月特斯拉在欧洲新车注册量大幅下滑
新浪财经· 2025-05-28 08:39
汽车行业整体表现 - 2025年1-4月汽车生产1012万台 同比增11% [1] - 同期汽车行业收入32552亿元 同比增7% 成本28636亿元 增8% [1] - 行业利润1326亿元 同比下降5.1% 利润率4.1% 低于下游工业企业5.6%的平均水平 [1] 新能源与智能驾驶进展 - 小米SU7 Ultra锁单数超2.3万台 公司全力保障35万辆年度交付目标 [2] - 鸿蒙智行搭载华为ADS车型累计避免碰撞181万次 [3] - 小马智行与迪拜RTA达成合作 2025年启动Robotaxi测试 2026年推进全无人商业化运营 [8] 车企技术专利动态 - 广汽集团公布智能座舱AI计算装置专利 采用存算一体架构扩展主机AI算力 [4] - 吉利申请"千里浩瀚智驾"商标 该系统为覆盖全系车型的智能出行解决方案 [5] - 奇瑞汽车公布自动跟随机器人专利 结合人脸/背影/声音识别实现智能接送 [6] 企业资本与市场动向 - 蔚来动力科技注册资本由20亿增至20.4亿元 [7] - 特斯拉4月欧洲新车注册量5475辆 同比降52.6% 前4月累计下滑46% [8] - 瑞典Meko成立新部门生产独家品牌汽车零配件 [8]
华为周军:鲲鹏、昇腾已发展超过665万开发者,8800多家合作伙伴
新浪科技· 2025-05-25 13:20
生态发展 - 鲲鹏昇腾开发者大会2025发布一系列新技术、新工具和新平台,旨在使能伙伴和开发者高效开发 [1] - 华为ICT Marketing部部长周军强调公司坚持"硬件开放、软件开源、使能伙伴、发展人才"的生态策略,持续投入根技术创新和系统架构创新 [1] - 截至2025年5月,鲲鹏昇腾已发展超过665万开发者,8800多家合作伙伴,完成23900多个解决方案认证 [1] 通用计算领域 - 鲲鹏正式推出鲲鹏AI+解决方案,并开源发布多样化算力集群软件开源社区openFuyao [1] - AI Core方面提供鲲鹏+xPU推理方案,兼容昇腾及其他国产GPU,覆盖数据中心到边缘场景 [1] - AI Infra方面提供鲲鹏AI数据工程组件和安全组件,优化数据处理、检索性能及安全性 [1] AI应用解决方案 - 提供业务编排、部署、调度等能力,基于开源生态构建企业端到端AI解决方案 [2] - 发布鲲鹏搜广推解决方案,优化召回和排序,助力企业打造新一代智能推荐引擎 [2] - 发布鲲鹏RAG解决方案1.0,基于鲲鹏CPU和昇腾NPU、第三方GPU卡,构建开源开放体系 [2] - 6家企业基于鲲鹏RAG解决方案1.0推出行业差异化解决方案 [2] 集群管理与调度 - openFuyao宣布正式开源,聚焦"云原生+AI",提供多样化算力互联的集群管理与调度能力 [2] - openFuyao提供算力亲和组件及面向生产的社区发行版,实现集群算力的弹性调度和高效释放 [2] AI计算领域创新 - 昇腾发布CATLASS算子模板库、MindIE Motor推理服务加速库、推理微服务MIS [2] - 持续升级分层开放CANN能力、MindSpeed RL强化学习套件、大规模专家并行推理解决方案 [2] - 目标为简化算子开发、便捷应用部署、提升模型训练和推理效率 [2]
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 19:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]
从高性能轻薄本到硬核电竞本 华硕天选新品解锁全场景体验
环球网· 2025-05-20 09:54
配置上天选6还采用全新冰川散热系统,搭配第二代Arc Flow绝尘风扇,84外叶片+42内叶片双叶轮设计,更为高效的"内吹技术2.0"及贯穿式后出风设计, 可疾速排出废热,避免内部热量堆积。此外,天选6采用了全新模具设计,高颜值机甲风细节到位,镂空设计还便于热气排出。整机轻约2.2kg,薄至 1.79cm,小轴美背设计一体性更强。 其中天选Air 2025在CPU性能方面,可选锐龙 AI 7 H 350及锐龙7 H 260两款处理器。锐龙 AI 7 H 350采用"Zen 5"架构打造,具备8核心16线程规格,经典核加 速频率可达5.0GHz,集成50 TOPS高算力NPU,为AI计算提供了强大性能支撑。而锐龙7 H 260同样具有8核心16线程,加速频率达5.1GHz,内置Radeon 780M集显,NPU算力达16 TOPS,性能同样出色。 天选Air 2025还搭载全新GeForce RTX 50系列笔记本电脑GPU,采用全新Blackwell架构打造,8GB显存,TGP高达110W。支持DLSS 4全新功能与NVIDIA Studio驱动,针对游戏玩家的Smooth Motion功能可实现驱动级AI插 ...
不确定性升级,Lam Research三季报难解疑虑
美股研究社· 2025-04-27 18:03
公司业绩与评级 - 2024年10月分析师给予Lam Research"强力买入"评级,后因风险上升下调至"持有",合理价值为73美元 [3] - 2025财年第三季度营收增长24.2%,营业利润增长34.7%,系统收入同比增长26.7% [3] - 预计2025财年第四季度收入为50亿美元±3亿美元,营业利润率33.5% [5] - 预计25财年收入增长25%,26财年放缓至9%,之后恢复至12% [7] - 预计年利润率增长30个基点,34财年运营利润率达31.7% [7] 市场与技术驱动因素 - NAND技术升级周期推动系统需求增长,DRAM和代工逻辑客户积极升级系统以适应先进NAND技术 [5] - 管理层预计2025财年全球晶圆厂设备(WFE)支出约1000亿美元 [5] - 先进节点的系统升级将在全球WFE支出中发挥重要作用 [5] - 短期WFE增长可能出现波动,因晶圆代工厂和NAND制造商可能预先购买设备以应对潜在关税影响 [5] 财务预测与估值 - 2025-2034年详细财务预测数据,包括营收、营业利润、净利润和自由现金流 [7] - 股权自由现金流(FCFE)计算假设无风险利率4.2%,贝塔系数1.55,股权风险溢价6%,股权成本13.5% [7] - 终端增长率设定为5%,与WFE市场长期增长一致 [7] - 公允价值计算为每股73美元 [7][8] 中国市场影响 - 中国市场占公司总收入31%,大部分收入来自国内客户 [8] - 管理层业绩指引已考虑美国对华出口限制,但新限制可能进一步影响增长 [8]
英特尔Q1营收超预期,Q2指引欠佳,下调全年资本开支目标,股价盘后跌超6%
硬AI· 2025-04-25 21:05
一季度业绩表现 - 第一季度营收126.7亿美元,高于分析师预期的123.1亿美元 [4] - 经调整毛利率39.2%,低于巅峰时期的60% [5] - 净亏损8亿美元,每股亏损0.19美元,优于预期的0.22美元 [5] - 代工业务营收46.7亿美元,同比增长7.1%,超预期的43亿美元 [5] - 个人电脑芯片业务营收76.3亿美元,同比下降7.8%,但高于预期的69.3亿美元 [5] - 数据中心与AI芯片业务营收41.3亿美元,高于预期的29.6亿美元 [5] 二季度业绩展望 - 预计第二季度营收112-124亿美元,低于分析师预期的129亿美元 [5] - 预计经调整毛利率降至36.5%,不及第一季度的39.2% [5] - 预计第二季度盈亏平衡,不及分析师预期的每股收益6美分 [5] - 业绩走弱部分归因于客户因担忧关税提前下单导致一季度业绩虚高 [8][10] 成本削减与资本开支调整 - 计划通过裁员和精简管理层提升效率 [12] - 2025年总体资本开支目标从200亿美元下调至180亿美元 [3][12] - 2026年运营资本开支目标降至160亿美元 [3][12] - 新厂房与设备支出预算削减20亿美元 [14] - 继去年裁员约1.5万人后进一步瘦身 [15] 新任CEO的战略调整 - 陈立武上任后首次发布财报,股价盘后下跌超6% [3][5] - 计划聚焦关键领域,出售非核心业务 [14] - 重组高层团队,任命新首席技术官兼AI负责人 [17] - 要求员工自9月起每周四天到办公室上班 [17] 行业竞争态势 - 英特尔去年全年营收较2021年峰值下滑约260亿美元 [17] - 英伟达营收与市值已大幅超越英特尔 [17] - 台积电以约少3万人力实现英特尔两倍的营收 [15] - 2025年迄今英特尔股价上涨约7.2%,表现优于下跌近16%的费城半导体指数 [17]
深度|SemiAnalysis万字解析英伟达GTC 2025:为推理而生,从硅片到系统再到软件的推理优化,买得越多,赚得越多
Z Finance· 2025-03-19 11:41
文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量,Nvidia硬件进步和软件优化推动推理成本下降,虽引发市场对AI硬件“供过于求”担忧,但符合“杰文斯悖论”,计算力普及将催生更多应用推高AI产业规模,Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快,三个扩展定律叠加协同工作,今年GTC致力于解决新扩展范式,Nvidia专注提高推理成本以实现模型训练和部署,口号从“买得越多,省得越多”变为“省得越多,买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求,但随着智能价格下降和能力提升,对智能需求将无限增长,Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示,如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用,如NVLink5传输和接收速度均为900GB/s,被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算,从Rubin开始采用此命名法 [11] GPU和系统路线图 布莱克韦尔Ultra B300 - B300以GPU形式出售,位于可装入口袋的SXM模块上,带Grace CPU和可装入口袋的BGA,与B200相比,FP4 FLOP密度高出50%以上,内存容量升级到每包288GB,带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16,将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,封装技术采用CoWoS - L,16个GPU通过NVLink协议通信,不具备Astera Labs的重定时器,部分超大规模计算厂商将选PCIe交换机,还将引入CX - 8 NIC,网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片,两侧有I/O模块,提供50 PFLOP密集FP4计算能力,比B300一代提升三倍多,通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构,与Vera CPU配对,新机架有72个GPU封装但命名为VR200 NVL144,含144个计算芯片,Nvidia HBM容量保持288GB升级到HBM4,带宽达13TB/s,采用6代NVLink速度翻倍,NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著,HBM堆栈从8个跃升至16个,计算面积和能力翻倍达100 PFLOP密集FP4,HBM容量达1024GB,系统有365 TB快速内存/第二层LPDDR,将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度,NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU,PCB板背板取代铜缆背板,可能有VR300 NVL1,152变体,还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行,专注元素级指数计算的MUFU单元性能提升慢,在bf16 Hopper和FP8 Hopper上计算softmax存在问题,Blackwell Ultra重新设计SM并添加指令,MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍,今年Nvidia在硬件和软件领域加速推理吞吐量提升,Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量,软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能,全面提升推理速度,使DeepSeek创新民主化,有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能是Hopper的900倍,成本降低99.97%,Nvidia追求进步,建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%,结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案,部署在横向扩展交换机中,CPO降低功耗,可使网络扁平化一层,400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机,Quantum X - 800 3400的CPO版本2025年下半年推出,Spectrum - X交换机2026年下半年推出,长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低,但Nvidia技术领先,新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距,预计将继续领先 [76]