AI大模型训练 - 财报，业绩电话会，研报，新闻 - Reportify

AI大模型训练

搜索文档

中国新型芯片突破光刻机限制，北大团队研发高精度模拟矩阵计算芯片

新浪财经· 2025-12-31 10:24

技术突破与核心优势 - 北京大学团队研发出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片 [1] - 该技术通过采用模拟计算新路径，旨在绕开高端光刻机的制造限制 [1] - 技术解决了模拟计算长期存在的“算不准”难题，实现了高精度计算 [1] - 芯片在矩阵计算时具备速度更快、更省电的优势 [1] - 芯片可在28纳米及以上成熟工艺量产，无需依赖高端光刻机 [1][2] 发展阶段与应用前景 - 当前芯片仍处于实验阶段，适合中等规模计算任务 [1] - 明确的应用方向包括6G通信和机器人等领域 [1][2] - 团队计划在两年内扩大芯片规模，以推进在上述领域的应用 [1] - 长远目标是为AI大模型训练、超级计算机等高算力需求提供高能效的后备技术方案 [1]

AI大模型训练

基于阻变存储器的高精度

AI大模型训练

基于阻变存储器的高精度

绕开光刻机“卡脖子” 中国新型芯片问世！专访北大孙仲：支撑AI训练和具身智能可在28纳米及以上成熟工艺量产

每日经济新闻· 2025-12-30 08:36

文章核心观点 - 北京大学团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片，在全球范围内首次将模拟计算的相对误差从1%降低至千万分之一（10^-7），精度提升至24位定点精度，相当于数字计算的浮点32位（FP32）[1][7][12] - 该芯片采用模拟计算范式，利用物理定律直接进行计算，无需二进制编码和逻辑门操作，在能效和算力上相比数字计算有显著优势，能效提升百倍，算力吞吐量提升千倍[5][9] - 该技术可在28纳米及以上成熟制程量产，绕开先进光刻机限制，为应对AI算力与能耗挑战、降低对单一技术路径依赖提供了新的可能性[1][4][10] 技术原理与突破 - **计算范式**：模拟计算是一种不同于当前主流数字计算（GPU/TPU/CPU/NPU）的范式，它通过物理定律直接对物理量进行运算，省去了数字计算中二进制编码和逻辑门操作的“翻译”环节，因此速度更快、能耗更低[3][5] - **精度突破**：研究团队通过器件、电路和算法协同创新，将模拟计算的相对误差从1%量级大幅压降至千万分之一（10^-7）量级，解决了长期制约模拟计算应用的精度瓶颈，使其精度首次能够满足AI训练等高精度计算场景的刚性需求[7][9][12] - **核心创新**：1) 器件层面，首次采用可量产的阻变存储器作为核心器件，形成“现代模拟计算”范式；2) 电路层面，设计全新反馈电路，在不显著增加能耗与延时的前提下实现高精度；3) 算法层面，引入迭代优化及“位切片”算法，高效实现高精度矩阵方程求解[9][15] 性能优势与比较 - **能效与算力**：相较于数字计算，该模拟计算芯片能效提升百倍，算力吞吐量提升千倍[9] - **硬件效率**：数字计算完成一次“1+1”需要28个晶体管，完成两个10位数的乘法需要约1万个晶体管，而模拟计算在电子尺度通过物理定律直接完成，硬件资源开销与能耗下降数个量级[3][5] - **工艺优势**：芯片可在28纳米及以上成熟工艺节点量产，无需依赖最先进的制程和EUV光刻机，利用现有芯片生产线即可[1][9][22] 应用场景与前景 - **目标领域**：芯片面向矩阵计算，是AI大模型训练（尤其二阶训练）、6G大规模MIMO、具身智能、超级计算（如气象预报、量子力学模拟）等前沿领域的核心运算的理想载体[1][9][10][20] - **当前阶段**：目前处于实验室原理验证阶段，矩阵规模为16x16，更适用于中等规模场景，在小规模任务上性能优势不明显，尚未进行大规模应用[9][18] - **二阶训练潜力**：当前主流AI训练为一阶方法，二阶方法迭代次数更少但计算量巨大，该技术擅长快速求解矩阵方程，理论上非常适合加速AI二阶训练[18][19] 发展路径与规划 - **规模扩展**：团队计划在2年内将芯片阵列规模从16x16提升至128x128，并力争扩展至512x512，以达到在具身智能、6G通信等中等规模场景产生实际效用的水平[10][24] - **产业化路径**：芯片制造流程与数字芯片相同，可委托现有代工厂生产流片，产业化路径清晰，但走向消费端仍需大量工程化、可靠性验证和商业推广工作[10][22][23] - **战略意义**：该技术为中国算力发展提供了一条“换道超车”的可能性，有望降低对先进制程和英伟达GPU的单一依赖，团队在该赛道上处于全球领先位置，但距离真正“摆脱依赖”还有很长的路要走，需要持续投入进行技术储备[10][25] 技术载体与扩展性 - **核心载体**：当前研究以阻变存储器为硬件载体实现高速、低功耗矩阵方程求解，但模拟计算的核心是数学到物理的映射，原则上其他非易失存储器（如相变、磁性、铁电存储器等）也可承载该电路[16][17] - **规模扩大逻辑**：对于超算等需要求解“百万×百万”级别大规模矩阵方程的场景，可通过算法设计实现“以小博大”，例如用512x512的硬件求解1024x1024的方程[21]

AI大模型训练

AI大模型训练

华福证券：AI大模型训练进入“万卡集群”时代 OCS交换机有望步入发展快车道

智通财经· 2025-12-23 17:13

行业趋势与市场机遇 - AI大模型训练进入“万卡集群”时代，传统电交换网络面临功耗高、带宽要求高的瓶颈 [1] - OCS交换机采用“全光交换”机制，对信号速率、协议和调制格式完全透明，能无缝承载400G至1.6T及以上速率的业务，从根本上保证网络的极致带宽和前瞻兼容性 [1] - 全球全光交换(OCS)交换机市场规模从2020年的72.78百万美元增长到2024年的366.47百万美元，2020至2024年复合增长率为49.80% [2] - 预计全球OCS交换机市场规模到2031年将达到2022.21百万美元，2025至2031年复合增长率为17.12% [2] 主流技术与市场格局 - 目前商用OCS交换机主流为MEMS技术方案，占比超过70% [1][2] - 谷歌为全球最大的OCS交换机生产商，自2022年起在其传统数据中心中导入该技术，并于2023年应用于TPU V4，计划在2025年的TPU V5P中进一步推广 [2] - 2024年MEMS技术方案的OCS交换机市场规模为192.36百万美元，约占整个全光交换(OCS)交换机市场52.49%的份额 [2] - 预计到2031年，MEMS方案OCS交换机市场规模将达到836.79百万美元，届时全球占比将减少至41.38% [2] 国内产业链参与情况 - 华为在2024年全联接大会上推出了最新的全光交换机Huawei OptiXtrans DC808 [3] - 凌云光参与OCS整机研发，是压电陶瓷路线代表 [3] - 中际旭创、光库科技、德科立等通过自研或代工的方式，参与到OCS交换机的制造、研发中 [3] - 国内涌现出一批优秀的OCS核心零部件供应商，业务涵盖MEMS振镜、透镜、光器件等核心环节，具备从零部件到制造的全产业链覆盖能力 [1][3] 相关上市公司 - 研报建议关注OCS产业链标的，包括赛微电子、芯动联科、炬光科技、长芯博创、腾景科技、太辰光、中际旭创、光库科技、光迅科技、共进股份、德科立、凌云光 [4]

AI大模型训练

Huawei OptiXtrans DC808

AI大模型训练

Huawei OptiXtrans DC808

浩云长盛彭轶峰：兼容并蓄和系统性思维是应对IDC行业急速迭代的生存法则

环球网资讯· 2025-12-18 14:31

行业转型与认知挑战 - 数据中心行业正经历深刻变革，其角色从传统的数据存储与计算物理空间转变为支撑AI大模型训练、算法迭代与生态演进的关键“算力中心” [1] - 行业面临的首要难题是认知转变，需从“我会做什么”转向“判断以后需要做什么”，许多数据中心被淘汰源于过去基于“改造”的路径选择，其设计仅以满足眼前标准为蓝本，无法适应未来动态需求 [3] - AI时代的需求具有动态、不可预知的特点，其不确定性决定了未来AI发展存在弹性、方向差异和不可预知性，固守旧有模式将难以适应 [3] 未来算力中心的核心特质 - 未来算力中心的核心特质被归结为兼容性和前瞻性，缺乏兼容能力的算力中心都将被淘汰 [4] - AI时代算力需求呈现多元化、高弹性、快速迭代的特点，通用计算需求依然存在，而智能计算迅猛发展，单机柜功率密度不断提升 [5] - 硬件、算法、算力任务的迭代周期已从过去的五到六年缩短至两到三年，未来甚至可能缩短至半年 [5] 兼容性技术战略 - 面对复杂需求，单一僵化的解决方案将被放弃，公司策略是构建一个“工具箱”，储备一系列可模块化替换的兼容性技术 [6] - 这些技术工具可灵活组合，以适应不同需求和发展阶段，确保每个场景下都能实现最佳效果，从而使基础设施能兼容其运行的全周期发展路径 [6] - 该策略旨在构建一个真正稳定、可持续发展的底座 [6] 绿色节能与全生命周期视角 - 绿色节能是数据中心行业的永恒主题，当前行业普遍关注的PUE和WUE主要聚焦于从建设到运营结束的阶段 [7] - 公司提出了更宏大的“全生命周期资源消耗”视角，能耗计算应从原材料开采第一天起，贯穿生产、运输、制造、安装、运营直至报废、清运和环保分解的全过程 [8] - 评判节能环保需比较全生命周期消耗的能源、水和不可再生材料与其产生的价值，否则“节能”可能只是局部假象 [8] 节能技术实施路径 - 公司建立模型分析节能措施的真实价值，权衡其牺牲与收获，在实施上致力于选增最优应用并减少能源转换环节 [8] - 在电力系统方面，行业趋势是向800伏直流系统演进，以减少传统交流-直流多次转换带来的能量损耗，提高传输电压是降低损耗的关键 [8][9] - 在制冷系统方面，目标是降低换热环节，通过解构和重组系统，用一个系统满足引入不同温度换热工质的多样化服务器需求，以最大化能效 [9] 对液冷技术的务实态度 - 随着GPU芯片功率飙升，液冷技术被视为解决高密度散热难题的方案之一，但目前市场端液冷占比仅约15% [10] - 大规模应用的高密度项目屈指可数，主流机柜功率仍集中在10~20千瓦区间，液冷在相当长一段时间内不会成为主流，因为通用计算和智能计算将同时存在 [10] - 液冷普及受限与中国芯片产业和AI生态的成熟度相关，公司虽较早部署冷板式液冷，但其发展仍处于探索和积累数据阶段，技术本身仍在不断改进中 [10][11] - 即便是头部企业，其冷板式液冷的应用密度也远低于技术理论上限，公司态度是持续发力但立足现实、稳步推进 [10][11]

全生命周期资源消耗

AI大模型训练

数据中心（IDC）

冷板式液冷

全生命周期资源消耗

AI大模型训练

数据中心（IDC）

冷板式液冷

四川1ms城市算网加速成型重塑算力运载新格局

环球网资讯· 2025-12-11 14:24

国家战略与政策驱动 - 算力是推动城市智慧转型与产业升级的核心动力，国家《算力基础设施高质量发展行动计划》要求提升算力高效运载能力，城区重要算力基础设施间时延不高于1ms，国家枢纽节点内不高于5ms [1] - 四川作为承接“东数西算”国家战略的核心区域，以1ms城市算网建设为抓手，推动算力资源从专业资源转变为城市公共服务，为AI大模型训练、智能制造等产业提供支撑 [1] 区域发展格局与目标 - 成渝地区双城经济圈核心城市成都率先发力，已实现城市内1ms、经济圈内3ms、全省5ms的时延圈布局，推动算力像水电一样融入生产生活 [2] - 城市算网作为算力基建核心载体，对传统产业升级、新生态培育意义重大 [2] - 四川通过“建用研”一体推进，探索出了一条算力产业特色发展之路，为全国算网建设提供了可借鉴的“四川方案” [4] 运营商网络建设与技术架构 - 三大运营商在四川1ms城市算网建设中发挥主力军作用，构筑算力“高速公路”的核心骨架 [5] - **四川移动**：发布F5G-A 1ms天府光网精品网络，打造“1+3+X”算力DC为中心的立体架构，实现全省算力“一张网”管理，城域中型及以上数据中心间光层单向时延均小于1ms，成都全部区县到天府数据中心集群及相邻区县间时延均控制至1ms以内 [6] - **四川电信**：目标构建算存运融合的高品质城市算力网络，2025年投资约1.8亿元建设300PFLOPS国产昇腾智算能力，2026年实施算力能力倍增计划，力争形成国产智算千卡池，算力规模将超1EFLOPS，部署400G超高速算间传输网络实现“一跳直达”，并融合量子加密技术建成量子城域网 [7] - **四川联通**：构建“1+4+21+N”全省算力布局，打造以成都为核心的“1+2”智算集群，三地时延压缩至毫秒级，部署400G立体双平面全光网络打造环“蓉”1-3-5毫秒低时延圈，其算力智联网（AINet）完成1500公里跨域异构混训验证，千亿参数AI大模型跨域训练等效算力达95%以上 [8] 技术融合与创新 - 四川的1ms城市算网融合了全光交换OXC、400G传输、智能调度等多项前沿技术，实现算力资源的“一跳直达” [4] - 四川电信通过全光交叉OXC设备与智能路由算法实现算力节点间“Mesh组网、一跳直达”，并创新推出“算力快线”产品，以“弹性带宽、参数随选、即呼即用”模式应用于TB/PB级数据迁移场景 [7] - 四川联通自研算力智联网（AINet）实现跨域高效协同 [8] 产业应用与场景赋能 - 1ms城市算网为实体经济深度赋能，其提供的确定性低时延保障让工业数据的实时采集、分析和反馈成为可能，在四川省制造业智改数转赋能平台展厅有东方电气的无人车间及黑灯产线、卡诺普的机器人生产车间等数智化成果 [9] - **智能制造案例-四川领克汽车**：在焊点质量管理、AI视觉质检等场景深度应用1ms算网，数百台机器人精准协同，焊接参数实时动态优化，工业相机在毫秒间完成数据分析和缺陷识别，借助超低时延网络将车辆设计迭代周期大幅缩短 [11][12] - **数字文创案例**：景秀子非公司依托1ms算网大带宽、低时延优势，实现虚拟数字人在各分支机构与算力中心间高效协同，降低单站点用算成本并提供“类本地”体验，在数智影视制作中，云端渲染采用算网协同方式提升效率 [12] - **影视特效案例-成都世纪川翔科技**：1ms算网支持的分布式缓存加速和GPU云电脑方案，让制作环境搭建周期缩短至传统模式的1/10，实现“资源秒级发放、数据安全无泄漏、创意不间断” [12] 未来发展方向 - 未来需强化技术创新、深化算力赋能、优化协同机制，政企产学研用需携手共建 [14] - 四川将持续深化算网建设，统筹推进“国家枢纽-区域节点-城市边缘”多层次算力供给体系，落实算力强基揭榜行动推动技术创新，创新服务模式培育“算力超市”“模型即服务”等普惠化服务以降低企业用算门槛，完善开放协作生态 [14]

AI大模型训练

Telecommunications

AI大模型训练

Telecommunications

华安证券：OCS光交换机有望迎来高速成长期建议关注赛微电子等

智通财经· 2025-12-08 15:49

文章核心观点 - AI大模型训练对通信带宽、时延和功耗要求极高，OCS凭借其高带宽、低延迟特性成为理想的互联解决方案，市场将迎来高速增长 [1][3] OCS技术特性与应用场景 - OCS是一种基于全光信号的交换设备，通过配置光交换矩阵建立光学路径，相比传统电交换机，具备低延迟、低功耗、高可靠性优势，且支持跨代设备无缝互联 [1] - OCS主要应用于AI算力集群的三大场景：Scale-Up（单节点性能强化）、Scale-Out（多节点协同）和Scale-Across（跨数据中心互联） [2] - 在谷歌TPU集群中，一个包含4096个TPU v4芯片的集群需配备48台136端口的OCS，TPU与OCS比例约为85:1；未来TPU v7集群规模扩大至9216芯片时，因采用更高密度的320端口OCS，仍仅需48台，比例提升至192:1，凸显其扩展效率 [2] 市场规模与竞争格局 - 全球OCS光交换机市场规模将从2020年的0.7亿美元增长至2025年的7.8亿美元，年复合增长率达62% [1][3] - 预计到2031年市场规模将达20.2亿美元，2025–2031年复合增长率约17.2% [3] - 市场竞争集中，2025年前四大厂商占据约69%份额，谷歌、Coherent等为主要参与者 [3] 产业链分析 - OCS产业链分为上游核心器件、中游设备集成与下游应用，技术壁垒高，市场参与者多集中于单一环节 [3] - 上游核心是MEMS微镜阵列等光器件，是产业链技术壁垒最高的环节，价值量占比高 [1][3] - 中游由国际厂商主导设备集成，国内厂商参与代工与方案定制 [3] - 下游需求集中于谷歌等巨头的AI数据中心，驱动其在高性能计算中的规模应用 [3] 相关公司分析 - **英唐智控（300131）**：以电子元器件分销为基础，正向半导体设计与制造逐步拓展，公司2025年拟收购桂林光隆集成以强化OCS全制程布局 [4] - 英唐智控子公司英唐微技术已具备MEMS微振镜研发与量产能力，产品覆盖多种规格，2025年4mm产品已在工业领域实现批量订单 [4] - 公司拟通过整合光隆集成的光开关、OCS系统等技术打造OCS全制程平台，有望在AI算力集群建设中打开新成长空间 [4] - **赛微电子（300456）**：为国内MEMS工艺开发与晶圆制造领军者，掌握硅通孔、晶圆键合等核心工艺，客户覆盖激光雷达、AI计算等领域 [4] - 2023年起瑞典Silex开始量产MEMS-OCS，2025年北京Fab3启动MEMS-OCS小批量试产 [4] - 公司营收中MEMS业务占比达83%，2024年毛利率提升至35.1%，随着AI算力需求扩张，公司在MEMS微镜阵列等核心部件的工艺优势有望转化为业绩弹性 [4]

华安证券(SH:600909)

AI大模型训练

高性能计算

Optical Communication

OCS光交换机

MEMS微镜阵列

AI大模型训练

高性能计算

Optical Communication

OCS光交换机

MEMS微镜阵列

未来网络试验设施正式投入运行，完成120项重大创新试验

环球网资讯· 2025-12-06 09:50

项目概况与定位 - 我国信息通信领域首个国家重大科技基础设施——未来网络试验设施正式投入运行 [1] - 该设施总部位于江苏南京的紫金山实验室，已于2024年8月正式建成 [1] 技术能力与规模 - 设施覆盖全国40个城市，包括88个主干网络节点和133个边缘网络节点 [1] - 光传输总长度超过5.5万公里 [1] - 能支持4096个异构业务并行试验，并可实现与国内外现有网络互联互通 [1] - 网络数据传输具备高效、高速、低延迟、低抖动特性，丢包率仅百万分之一 [1] 应用领域与方向 - 为工业制造、能源电力、教育医疗、低空经济等领域提供开放试验支撑 [1] - 在AI大模型训练、算力调度、算网协同、光电融合等前沿方向开展示范应用 [1] 服务客户与成果 - 已累计服务国家级科研机构（如中国科学院国家天文台、中科院高能所）、四大运营商（中国电信、中国移动、中国联通、中国广电）、多所知名高校（如北京大学、南京大学、浙江大学、香港中文大学）以及龙头企业（如华为、新华三、百度） [1] - 已完成120项重大创新试验 [1] - 试验内容涵盖核心芯片、网络操作系统、路由控制、安全可信、大规模组网、新型AI业务等关键维度 [1]

AI大模型训练

Telecommunications

未来网络试验设施

AI大模型训练

Telecommunications

未来网络试验设施

存储产业“换挡”提速，DDR5普及进入快车道

环球时报· 2025-11-24 11:23

存储市场结构性变化 - 存储市场呈现显著结构性变化，DDR4内存芯片价格持续攀升并反超DDR5，出现罕见价格倒挂现象 [1] - 此现象标志着DDR4退场序幕正式拉开，DDR5时代全面开启，存储产业换挡提速进入新阶段 [1] DDR4与DDR5价格动态 - 自今年6月起，16GB容量的DDR4内存芯片价格开始反超同容量DDR5芯片 [3] - 截至8月末，DDR4单价从6月的7.01美元升至8.59美元，DDR5则从5.85美元涨至6.17美元，两者价差持续扩大 [3] - 价格倒挂源于技术迭代中的供需失衡，头部企业推进DDR4停产计划并将产能转向DDR5，导致DDR4供给收缩 [3] 技术升级驱动因素 - AI写真、云端游戏等消费端新应用对数据处理能力要求极高，DDR4有限带宽已无法满足需求 [3] - DDR5凭借高带宽优势能将图片生成从分钟级缩短至秒级，实现云游戏跟手体验，成为消费端体验升级的必然选择 [3] - 金融高频交易、互联网支付洪峰等行业数字化场景对系统性能要求严苛，DDR4在延迟、带宽等方面的瓶颈日益凸显 [4] DDR5技术优势与行业影响 - DDR5相较DDR4实现代际飞跃，带宽提升两倍，容量与能效显著优化，并集成片上ECC纠错功能 [4] - DDR5能大幅降低数据中心宕机风险，为AI大模型训练等场景提供坚实支撑 [4] - 结合十五五规划中高水平科技自立自强的发展目标，DDR5的普及成为存储产业支撑数字经济发展的关键抓手 [4] 产业发展趋势 - 业内普遍认为此轮DDR4涨价仅为技术更替的周期性波动，无法逆转DDR5全面取代DDR4的大势 [3] - 推动DDR5普及是顺应技术规律、满足消费需求、夯实AI发展基础的战略性举措 [5]

AI大模型训练

DDR4内存芯片

DDR5内存芯片

AI大模型训练

DDR4内存芯片

DDR5内存芯片

创业板50指数上涨0.88%，光模块和电池板块表现强劲

新浪财经· 2025-11-10 19:41

市场整体表现 - 上周A股市场主要指数普遍上涨，沪深300指数上涨0.82%，中证1000指数上涨0.47%，创业板50指数表现突出，涨幅达0.88% [1] - 市场交易活跃度提升，日均成交额保持在2万亿元左右 [1] - 中证500指数上周略微下跌0.04%，科创50指数微幅上涨0.01% [1] 行业热点与板块表现 - 光伏、新能源等电力设备以及煤炭、钢铁、化工等周期性行业成为市场关注重点 [1] - 光伏板块上周大幅反弹，政策推动行业自律及光伏与储能协同发展，供需格局改善 [2] - 医药生物板块上周出现下跌，处于技术性调整阶段，医保谈判有127个目录外药品参与 [3] - 光模块板块虽出现短期资金流出，但中长期需求强劲，受AI大模型训练推动 [2] 创业板50指数分析 - 创业板50指数2025年第三季度归母净利润同比增速高达49%，高盈利增速缓解估值压力 [1] - 指数聚焦信息技术、新能源、金融科技和医药四个新质生产力赛道，科技成长属性纯粹 [1] - 在光模块、新能源及金融科技的含量上优于创业板指和其他主流宽基指数 [2] - 指数为创新创业企业提供融资平台，支持三创四新发展 [1] 关键领域发展趋势 - 光模块技术快速迭代，800G/1.6T需求提升，1.6T光模块需求预计上修至2000万只，中际旭创1.6T产品已进入量产 [2] - 北美主要云厂商资本开支大幅增长，微软、谷歌、Meta和亚马逊2023年第三季度合计资本开支达964亿美元，同比增长68% [2] - 2025年全球光伏新增装机量预测将超过500GW，储能需求随国内十五五规划推动而增长，电芯价格趋稳 [2] - 医药行业创新驱动逻辑不变，ADC、双抗等新疗法全球授权加速，部分CXO企业2023年第三季度收入同比增速超40% [3] 投资工具与市场数据 - 创业板50ETF（159949）是跟踪创业板50指数的基金，筛选新能车、生物医药、电子、光伏和互联网金融五大科技赛道龙头企业 [3] - 该ETF流动性强，过去一年日均成交额达14.97亿元，最新规模为269.74亿元，是深交所ETF前列产品 [3] - 创业板50ETF含有38%新能源成分，是布局新能源和光伏等领域的工具 [1]

创业(US:VEMLY)

AI大模型训练

新能源汽车

AI大模型训练

新能源汽车

HAMi × NVIDIA：GPU 拓扑感知调度实现详解

AI前线· 2025-10-25 13:32

核心观点 - HAMi v2.7.0版本正式推出针对NVIDIA GPU的拓扑感知调度功能，旨在解决高性能计算和AI大模型训练场景下的多卡通信瓶颈问题 [2] - 该功能通过智能调度，将计算任务精确部署到物理连接最紧密、通信速度最快的GPU组合上，以最大化加速计算任务并提升集群整体的算力效能 [2] - 其设计哲学是用动态发现代替静态配置，用远见决策代替短视分配，构成了一套成熟、高效的GPU调度方案 [27] 核心特性总览 - 核心设计思想是先在节点本地将复杂的物理拓扑精确量化为设备间的“通信分数”，然后调度器基于这些分数做出最优选择 [5] - 具备动态计算拓扑分数特性，Device Plugin能够通过NVML动态探测节点上GPU间的物理连接拓扑（如NVLink、PCIe），并将其量化为通信分数 [6] - 采用双策略防碎片调度，Fit函数内置寻优算法，针对多卡任务和单卡任务自动采用“最佳匹配”与“最小破坏”策略 [6] 实现原理：拓扑注册与调度决策 - 拓扑注册阶段的目标是将GPU物理连接转化为调度逻辑可理解的标准化的数字分数 [9] - 信息探测环节通过NVIDIA的NVML获取所有GPU两两之间的物理连接类型（NVLink或PCIe） [11] - 数据建模与量化环节首先在内存中构建完整的GPU拓扑图，然后根据预设规则将连接关系计算转换为具体的通信分数 [11] - 最终产物是一个记录了每个GPU的UUID以及它与其他所有GPU之间通信分数的“设备分数表”，并被注册到节点的Annotation中 [11] - 调度决策阶段，Fit函数会先过滤掉不满足基本资源需求的GPU，然后基于设备分数表执行考虑了最佳匹配和最小破坏原则的寻优算法 [11] 代码深度解析：拓扑发现与分数计算 - 拓扑信息的发现与量化在Device Plugin本地完成，并最终生成可供上报的分数表 [13] - 构建拓扑图逻辑由`build()`函数完成，它初始化设备列表后，通过双重循环遍历所有GPU对，聚合连接信息，构建包含丰富连接信息的完整拓扑图 [15] - 量化为分数由`calculateGPUScore`函数完成，它会检查两个GPU之间的所有连接并根据详细的switch语句进行评分，最终分数是所有连接分数的总和 [15] 代码深度解析：设备端调度决策 - 调度决策核心逻辑位于设备端的`Fit()`函数中，该函数会根据请求的GPU数量自动切换寻优策略 [14] - 对于多卡任务（请求多于1个GPU），采用“最佳匹配”原则，目标是寻找内部通信总分最高的GPU组合 [19] - 具体实现是找出所有满足资源需求的空闲GPU，生成所有可能组合，计算每个组合内部所有设备对的分数总和，并选择分数总和最高的组合 [20][23] - 对于单卡任务（只请求1个GPU），采用“最小破坏”原则，目标是选择与其他可用GPU连接最“疏远”的卡 [22] - 具体实现是遍历所有可用单个GPU，计算每个GPU与其他所有可用GPU的分数总和，并选择总分最低的GPU，以保护拓扑完整性 [22] 使用方式 - 用户只需一个Annotation即可启用拓扑感知调度，调度器会根据任务请求的GPU数量自动应用相应的策略 [25] - 启用方式为在Pod的metadata annotations中添加`hami.io/gpu-scheduler-policy: "topology-aware"` [26]

英伟达(US:NVDA)

GPU拓扑感知调度

高性能计算（HPC）

AI大模型训练

GPU拓扑感知调度

高性能计算（HPC）

AI大模型训练