Workflow
AI大模型训练
icon
搜索文档
创业板50指数上涨0.88%,光模块和电池板块表现强劲
新浪财经· 2025-11-10 19:41
市场整体表现 - 上周A股市场主要指数普遍上涨,沪深300指数上涨0.82%,中证1000指数上涨0.47%,创业板50指数表现突出,涨幅达0.88% [1] - 市场交易活跃度提升,日均成交额保持在2万亿元左右 [1] - 中证500指数上周略微下跌0.04%,科创50指数微幅上涨0.01% [1] 行业热点与板块表现 - 光伏、新能源等电力设备以及煤炭、钢铁、化工等周期性行业成为市场关注重点 [1] - 光伏板块上周大幅反弹,政策推动行业自律及光伏与储能协同发展,供需格局改善 [2] - 医药生物板块上周出现下跌,处于技术性调整阶段,医保谈判有127个目录外药品参与 [3] - 光模块板块虽出现短期资金流出,但中长期需求强劲,受AI大模型训练推动 [2] 创业板50指数分析 - 创业板50指数2025年第三季度归母净利润同比增速高达49%,高盈利增速缓解估值压力 [1] - 指数聚焦信息技术、新能源、金融科技和医药四个新质生产力赛道,科技成长属性纯粹 [1] - 在光模块、新能源及金融科技的含量上优于创业板指和其他主流宽基指数 [2] - 指数为创新创业企业提供融资平台,支持三创四新发展 [1] 关键领域发展趋势 - 光模块技术快速迭代,800G/1.6T需求提升,1.6T光模块需求预计上修至2000万只,中际旭创1.6T产品已进入量产 [2] - 北美主要云厂商资本开支大幅增长,微软、谷歌、Meta和亚马逊2023年第三季度合计资本开支达964亿美元,同比增长68% [2] - 2025年全球光伏新增装机量预测将超过500GW,储能需求随国内十五五规划推动而增长,电芯价格趋稳 [2] - 医药行业创新驱动逻辑不变,ADC、双抗等新疗法全球授权加速,部分CXO企业2023年第三季度收入同比增速超40% [3] 投资工具与市场数据 - 创业板50ETF(159949)是跟踪创业板50指数的基金,筛选新能车、生物医药、电子、光伏和互联网金融五大科技赛道龙头企业 [3] - 该ETF流动性强,过去一年日均成交额达14.97亿元,最新规模为269.74亿元,是深交所ETF前列产品 [3] - 创业板50ETF含有38%新能源成分,是布局新能源和光伏等领域的工具 [1]
HAMi × NVIDIA:GPU 拓扑感知调度实现详解
AI前线· 2025-10-25 13:32
核心观点 - HAMi v2.7.0版本正式推出针对NVIDIA GPU的拓扑感知调度功能,旨在解决高性能计算和AI大模型训练场景下的多卡通信瓶颈问题 [2] - 该功能通过智能调度,将计算任务精确部署到物理连接最紧密、通信速度最快的GPU组合上,以最大化加速计算任务并提升集群整体的算力效能 [2] - 其设计哲学是用动态发现代替静态配置,用远见决策代替短视分配,构成了一套成熟、高效的GPU调度方案 [27] 核心特性总览 - 核心设计思想是先在节点本地将复杂的物理拓扑精确量化为设备间的“通信分数”,然后调度器基于这些分数做出最优选择 [5] - 具备动态计算拓扑分数特性,Device Plugin能够通过NVML动态探测节点上GPU间的物理连接拓扑(如NVLink、PCIe),并将其量化为通信分数 [6] - 采用双策略防碎片调度,Fit函数内置寻优算法,针对多卡任务和单卡任务自动采用“最佳匹配”与“最小破坏”策略 [6] 实现原理:拓扑注册与调度决策 - 拓扑注册阶段的目标是将GPU物理连接转化为调度逻辑可理解的标准化的数字分数 [9] - 信息探测环节通过NVIDIA的NVML获取所有GPU两两之间的物理连接类型(NVLink或PCIe) [11] - 数据建模与量化环节首先在内存中构建完整的GPU拓扑图,然后根据预设规则将连接关系计算转换为具体的通信分数 [11] - 最终产物是一个记录了每个GPU的UUID以及它与其他所有GPU之间通信分数的“设备分数表”,并被注册到节点的Annotation中 [11] - 调度决策阶段,Fit函数会先过滤掉不满足基本资源需求的GPU,然后基于设备分数表执行考虑了最佳匹配和最小破坏原则的寻优算法 [11] 代码深度解析:拓扑发现与分数计算 - 拓扑信息的发现与量化在Device Plugin本地完成,并最终生成可供上报的分数表 [13] - 构建拓扑图逻辑由`build()`函数完成,它初始化设备列表后,通过双重循环遍历所有GPU对,聚合连接信息,构建包含丰富连接信息的完整拓扑图 [15] - 量化为分数由`calculateGPUScore`函数完成,它会检查两个GPU之间的所有连接并根据详细的switch语句进行评分,最终分数是所有连接分数的总和 [15] 代码深度解析:设备端调度决策 - 调度决策核心逻辑位于设备端的`Fit()`函数中,该函数会根据请求的GPU数量自动切换寻优策略 [14] - 对于多卡任务(请求多于1个GPU),采用“最佳匹配”原则,目标是寻找内部通信总分最高的GPU组合 [19] - 具体实现是找出所有满足资源需求的空闲GPU,生成所有可能组合,计算每个组合内部所有设备对的分数总和,并选择分数总和最高的组合 [20][23] - 对于单卡任务(只请求1个GPU),采用“最小破坏”原则,目标是选择与其他可用GPU连接最“疏远”的卡 [22] - 具体实现是遍历所有可用单个GPU,计算每个GPU与其他所有可用GPU的分数总和,并选择总分最低的GPU,以保护拓扑完整性 [22] 使用方式 - 用户只需一个Annotation即可启用拓扑感知调度,调度器会根据任务请求的GPU数量自动应用相应的策略 [25] - 启用方式为在Pod的metadata annotations中添加`hami.io/gpu-scheduler-policy: "topology-aware"` [26]
中国芯片技术取得多项突破性进展
新浪财经· 2025-10-18 21:27
颠覆性算力芯片 - 北京大学研发全球首款24位精度模拟矩阵芯片,基于阻变存储器,通过动态误差校准算法将传统模拟计算精度从8位提升至24位,误差率低于0.1% [1] - 该芯片在求解128×128矩阵方程时,计算吞吐量达顶级GPU的1000倍以上,能效提升超100倍,应用于6G通信基站信号处理仅需3次迭代即可恢复高清图像,误码率与32位数字计算相当 [2] - 清华大学开发全球首颗集成存储、计算与片上学习的忆阻器芯片,能效较传统ASIC提升75倍,支持硬件端直接训练AI [4] 核心工艺与材料 - 国光量超发布4英寸离子束刻蚀机,精度达0.02纳米,性能较国际主流2nm设备提升百倍,中微半导体实现1纳米等离子刻蚀工艺 [7] - 璞璘科技交付全球首台半导体级步进式纳米压印光刻机,上海微电子浸没式光刻机量产,通过SAQP技术实现等效5nm试产,国产设备配套率超50% [7] - 复旦大学研制全球首颗二维-硅基混合架构闪存芯片"无极",集成5900个晶体管,读写速度比传统闪存快百万倍,良率达94.3% [7] 高端芯片设计与制造 - 小米玄戒O1为中国大陆首款自研3nm手机SoC,集成190亿晶体管,性能接近苹果A18 Pro,能效提升30% [8] - 华为昇腾910B支持8卡互联,大规模应用于政务云及自动驾驶,国产AI算力依赖度从95%降至50% [9] - 龙芯3C6000采用完全自主"龙架构"指令集,64核性能超越英特尔至强8380,车规级芯片东风DF30 MCU实现全流程国产化,功能安全达最高等级ASIL-D [10] 未来方向与挑战 - 北京大学与港城大联合研发全频段6G芯片,速率达120Gbps,支持天地一体化组网 [11] - 国光量超刻蚀机推动量子芯片良率提升,中国电信推出504比特超导量子计算机"天衍504" [12] - 7nm以下先进制程设备仍依赖EUV光刻机,国产EUV预计2027年攻关,GPU工具链与EDA设计软件需加速完善 [13]
下一只“寒王”呼之欲出!算力+机器人共振,英伟达核心伙伴潜力股
新浪财经· 2025-10-08 12:16
算力增长预测与战略重要性 - 到2035年,全社会算力总量将增长10万倍[1] - 2025年中国智能算力规模将达到1037.3 EFLOPS,较2024年增长43%[2] - 2026年中国智能算力规模将达1460.3 EFLOPS,实现两年翻倍增长[2] - 全球主要经济体将算力视为战略资源,美国通过《芯片与科学法案》投入520亿美元补贴半导体产业[2] - 欧盟启动《欧洲芯片法案》,计划2030年占全球20%市场份额[2] 算力需求驱动领域 - AI大模型训练、自动驾驶、智慧城市、工业机器人及军工领域对算力需求激增[4] - 智能汽车领域,单车算力需求年复合增长超50%[4] - 卫星互联网领域,全球低轨卫星数据处理需求激增[4] - 工业4.0领域,智能制造对实时算力要求不断提升[5] 算力产业链相关公司 - 紫光股份旗下新华三为NVIDIA企业级产品总代理,提供全栈解决方案[6] - 英维克向IDC公司提供机房及服务器内部的液冷系统,客户包括华为、英伟达[6] - 工业富联作为英伟达核心供应商,AI服务器产品线成长迅猛,GB200系列实现量产爬坡[7] - 烽火通信旗下长江计算为算力基础设施国家队,与昇腾合作发布解决方案,为华为供货[8] - 某公司液冷方案通过5000次插拔零泄漏验证,达到英伟达GB300架构要求,是华为昇腾910D芯片液冷系统独家供应商[9]
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 17:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
深圳商报· 2025-05-12 06:32
腾讯技术优化DeepEP通信框架 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化 在RoCE网络环境性能提升100% 在IB网络环境提升30% [2] - 优化后的技术方案获得DeepSeek公开致谢 被称为"huge speedup"代码贡献 [2] - 该技术已应用于腾讯混元大模型等项目的训练推理 在腾讯星脉与H20服务器构建的高性能环境中展现卓越通用性 [3] DeepEP通信框架原始性能 - DeepSeek开源DeepEP在内的五大代码库 展示如何利用有限硬件资源实现接近万卡集群性能 [2] - DeepEP凭借突破性方法提升300%通信效率 成功解决MoE架构大模型对英伟达NCCL的依赖问题 [2] - 原始技术在RoCE网络环境中表现不佳 限制了更广泛场景的应用 [2] 腾讯优化关键技术突破 - 通过拓扑感知的多QP建链技术 智能分配数据流 优化双端口网卡带宽利用率 避免带宽浪费 [3] - 基于IBGDA技术优化 解决GPU通信中CPU控制瓶颈问题 降低延迟和能耗 [3] - 提出"QP内时序锁"机制 使多个GPU间数据传输能精准按顺序完成 即使同时处理1000多个任务也能自动理顺顺序 [3] 技术应用与行业影响 - 腾讯优化使DeepEP在RoCE网络性能翻倍 反哺IB网络时通信效率再提升30% [3] - 该技术已全面开源 为AI大模型训练提供更高效解决方案 [2][3]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 19:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]
技术驱动与绿色转型双轮并进,润泽科技一季报稳健增长
证券时报网· 2025-04-29 12:08
财务表现 - 一季度营收11.98亿元,归属于上市公司股东的净利润4.3亿元,财务指标健康 [1] 业务发展 - 作为国内领先的智算基础设施提供商,以技术创新与绿色发展为双引擎,加速构建面向未来的算力底座 [1] - 已形成覆盖京津冀、长三角、粤港澳大湾区等核心经济带的7大AIDC智算集群 [1] - 已交付及即将交付的算力中心全部取得投产订单,预计2025年可完成上架并趋向成熟 [1] 技术布局 - 持续深化液冷技术商业化落地,2023年交付业内首例整栋纯液冷绿色智算中心 [1] - 液冷智算中心PUE已降至1.15左右,廊坊园区已交付的智算中心实际运行PUE达到行业领先水平 [1] - 液冷领域的先发优势将转化为市场壁垒,为AI大模型训练提供高可靠、高效能的算力基础设施支撑 [1] 绿色低碳战略 - A-7、A-18算力中心凭借卓越的节能降耗表现,成功入选国家绿色数据中心 [2] - 2024年完成绿电交易总量8亿千瓦时,持续深耕节能技术研发,推动绿色低碳转型 [2] 海南自贸港战略布局 - 在海南儋州建设智算基础设施集群,规划约3万架机柜,完善跨境布局 [3] - 依托海南跨境电商综合试验区政策红利,为跨境电商、跨境支付等场景提供稳定、安全、可靠、绿色的服务 [3] - 契合《海南自由贸易港建设总体方案》中"数字经济发展"导向,为开拓境外市场奠定基础 [3]