Workflow
AI大模型训练
icon
搜索文档
存储产业“换挡”提速,DDR5普及进入快车道
环球时报· 2025-11-24 11:23
存储市场结构性变化 - 存储市场呈现显著结构性变化,DDR4内存芯片价格持续攀升并反超DDR5,出现罕见价格倒挂现象 [1] - 此现象标志着DDR4退场序幕正式拉开,DDR5时代全面开启,存储产业换挡提速进入新阶段 [1] DDR4与DDR5价格动态 - 自今年6月起,16GB容量的DDR4内存芯片价格开始反超同容量DDR5芯片 [3] - 截至8月末,DDR4单价从6月的7.01美元升至8.59美元,DDR5则从5.85美元涨至6.17美元,两者价差持续扩大 [3] - 价格倒挂源于技术迭代中的供需失衡,头部企业推进DDR4停产计划并将产能转向DDR5,导致DDR4供给收缩 [3] 技术升级驱动因素 - AI写真、云端游戏等消费端新应用对数据处理能力要求极高,DDR4有限带宽已无法满足需求 [3] - DDR5凭借高带宽优势能将图片生成从分钟级缩短至秒级,实现云游戏跟手体验,成为消费端体验升级的必然选择 [3] - 金融高频交易、互联网支付洪峰等行业数字化场景对系统性能要求严苛,DDR4在延迟、带宽等方面的瓶颈日益凸显 [4] DDR5技术优势与行业影响 - DDR5相较DDR4实现代际飞跃,带宽提升两倍,容量与能效显著优化,并集成片上ECC纠错功能 [4] - DDR5能大幅降低数据中心宕机风险,为AI大模型训练等场景提供坚实支撑 [4] - 结合十五五规划中高水平科技自立自强的发展目标,DDR5的普及成为存储产业支撑数字经济发展的关键抓手 [4] 产业发展趋势 - 业内普遍认为此轮DDR4涨价仅为技术更替的周期性波动,无法逆转DDR5全面取代DDR4的大势 [3] - 推动DDR5普及是顺应技术规律、满足消费需求、夯实AI发展基础的战略性举措 [5]
创业板50指数上涨0.88%,光模块和电池板块表现强劲
新浪财经· 2025-11-10 19:41
市场整体表现 - 上周A股市场主要指数普遍上涨,沪深300指数上涨0.82%,中证1000指数上涨0.47%,创业板50指数表现突出,涨幅达0.88% [1] - 市场交易活跃度提升,日均成交额保持在2万亿元左右 [1] - 中证500指数上周略微下跌0.04%,科创50指数微幅上涨0.01% [1] 行业热点与板块表现 - 光伏、新能源等电力设备以及煤炭、钢铁、化工等周期性行业成为市场关注重点 [1] - 光伏板块上周大幅反弹,政策推动行业自律及光伏与储能协同发展,供需格局改善 [2] - 医药生物板块上周出现下跌,处于技术性调整阶段,医保谈判有127个目录外药品参与 [3] - 光模块板块虽出现短期资金流出,但中长期需求强劲,受AI大模型训练推动 [2] 创业板50指数分析 - 创业板50指数2025年第三季度归母净利润同比增速高达49%,高盈利增速缓解估值压力 [1] - 指数聚焦信息技术、新能源、金融科技和医药四个新质生产力赛道,科技成长属性纯粹 [1] - 在光模块、新能源及金融科技的含量上优于创业板指和其他主流宽基指数 [2] - 指数为创新创业企业提供融资平台,支持三创四新发展 [1] 关键领域发展趋势 - 光模块技术快速迭代,800G/1.6T需求提升,1.6T光模块需求预计上修至2000万只,中际旭创1.6T产品已进入量产 [2] - 北美主要云厂商资本开支大幅增长,微软、谷歌、Meta和亚马逊2023年第三季度合计资本开支达964亿美元,同比增长68% [2] - 2025年全球光伏新增装机量预测将超过500GW,储能需求随国内十五五规划推动而增长,电芯价格趋稳 [2] - 医药行业创新驱动逻辑不变,ADC、双抗等新疗法全球授权加速,部分CXO企业2023年第三季度收入同比增速超40% [3] 投资工具与市场数据 - 创业板50ETF(159949)是跟踪创业板50指数的基金,筛选新能车、生物医药、电子、光伏和互联网金融五大科技赛道龙头企业 [3] - 该ETF流动性强,过去一年日均成交额达14.97亿元,最新规模为269.74亿元,是深交所ETF前列产品 [3] - 创业板50ETF含有38%新能源成分,是布局新能源和光伏等领域的工具 [1]
HAMi × NVIDIA:GPU 拓扑感知调度实现详解
AI前线· 2025-10-25 13:32
核心观点 - HAMi v2.7.0版本正式推出针对NVIDIA GPU的拓扑感知调度功能,旨在解决高性能计算和AI大模型训练场景下的多卡通信瓶颈问题 [2] - 该功能通过智能调度,将计算任务精确部署到物理连接最紧密、通信速度最快的GPU组合上,以最大化加速计算任务并提升集群整体的算力效能 [2] - 其设计哲学是用动态发现代替静态配置,用远见决策代替短视分配,构成了一套成熟、高效的GPU调度方案 [27] 核心特性总览 - 核心设计思想是先在节点本地将复杂的物理拓扑精确量化为设备间的“通信分数”,然后调度器基于这些分数做出最优选择 [5] - 具备动态计算拓扑分数特性,Device Plugin能够通过NVML动态探测节点上GPU间的物理连接拓扑(如NVLink、PCIe),并将其量化为通信分数 [6] - 采用双策略防碎片调度,Fit函数内置寻优算法,针对多卡任务和单卡任务自动采用“最佳匹配”与“最小破坏”策略 [6] 实现原理:拓扑注册与调度决策 - 拓扑注册阶段的目标是将GPU物理连接转化为调度逻辑可理解的标准化的数字分数 [9] - 信息探测环节通过NVIDIA的NVML获取所有GPU两两之间的物理连接类型(NVLink或PCIe) [11] - 数据建模与量化环节首先在内存中构建完整的GPU拓扑图,然后根据预设规则将连接关系计算转换为具体的通信分数 [11] - 最终产物是一个记录了每个GPU的UUID以及它与其他所有GPU之间通信分数的“设备分数表”,并被注册到节点的Annotation中 [11] - 调度决策阶段,Fit函数会先过滤掉不满足基本资源需求的GPU,然后基于设备分数表执行考虑了最佳匹配和最小破坏原则的寻优算法 [11] 代码深度解析:拓扑发现与分数计算 - 拓扑信息的发现与量化在Device Plugin本地完成,并最终生成可供上报的分数表 [13] - 构建拓扑图逻辑由`build()`函数完成,它初始化设备列表后,通过双重循环遍历所有GPU对,聚合连接信息,构建包含丰富连接信息的完整拓扑图 [15] - 量化为分数由`calculateGPUScore`函数完成,它会检查两个GPU之间的所有连接并根据详细的switch语句进行评分,最终分数是所有连接分数的总和 [15] 代码深度解析:设备端调度决策 - 调度决策核心逻辑位于设备端的`Fit()`函数中,该函数会根据请求的GPU数量自动切换寻优策略 [14] - 对于多卡任务(请求多于1个GPU),采用“最佳匹配”原则,目标是寻找内部通信总分最高的GPU组合 [19] - 具体实现是找出所有满足资源需求的空闲GPU,生成所有可能组合,计算每个组合内部所有设备对的分数总和,并选择分数总和最高的组合 [20][23] - 对于单卡任务(只请求1个GPU),采用“最小破坏”原则,目标是选择与其他可用GPU连接最“疏远”的卡 [22] - 具体实现是遍历所有可用单个GPU,计算每个GPU与其他所有可用GPU的分数总和,并选择总分最低的GPU,以保护拓扑完整性 [22] 使用方式 - 用户只需一个Annotation即可启用拓扑感知调度,调度器会根据任务请求的GPU数量自动应用相应的策略 [25] - 启用方式为在Pod的metadata annotations中添加`hami.io/gpu-scheduler-policy: "topology-aware"` [26]
中国芯片技术取得多项突破性进展
新浪财经· 2025-10-18 21:27
颠覆性算力芯片 - 北京大学研发全球首款24位精度模拟矩阵芯片,基于阻变存储器,通过动态误差校准算法将传统模拟计算精度从8位提升至24位,误差率低于0.1% [1] - 该芯片在求解128×128矩阵方程时,计算吞吐量达顶级GPU的1000倍以上,能效提升超100倍,应用于6G通信基站信号处理仅需3次迭代即可恢复高清图像,误码率与32位数字计算相当 [2] - 清华大学开发全球首颗集成存储、计算与片上学习的忆阻器芯片,能效较传统ASIC提升75倍,支持硬件端直接训练AI [4] 核心工艺与材料 - 国光量超发布4英寸离子束刻蚀机,精度达0.02纳米,性能较国际主流2nm设备提升百倍,中微半导体实现1纳米等离子刻蚀工艺 [7] - 璞璘科技交付全球首台半导体级步进式纳米压印光刻机,上海微电子浸没式光刻机量产,通过SAQP技术实现等效5nm试产,国产设备配套率超50% [7] - 复旦大学研制全球首颗二维-硅基混合架构闪存芯片"无极",集成5900个晶体管,读写速度比传统闪存快百万倍,良率达94.3% [7] 高端芯片设计与制造 - 小米玄戒O1为中国大陆首款自研3nm手机SoC,集成190亿晶体管,性能接近苹果A18 Pro,能效提升30% [8] - 华为昇腾910B支持8卡互联,大规模应用于政务云及自动驾驶,国产AI算力依赖度从95%降至50% [9] - 龙芯3C6000采用完全自主"龙架构"指令集,64核性能超越英特尔至强8380,车规级芯片东风DF30 MCU实现全流程国产化,功能安全达最高等级ASIL-D [10] 未来方向与挑战 - 北京大学与港城大联合研发全频段6G芯片,速率达120Gbps,支持天地一体化组网 [11] - 国光量超刻蚀机推动量子芯片良率提升,中国电信推出504比特超导量子计算机"天衍504" [12] - 7nm以下先进制程设备仍依赖EUV光刻机,国产EUV预计2027年攻关,GPU工具链与EDA设计软件需加速完善 [13]
下一只“寒王”呼之欲出!算力+机器人共振,英伟达核心伙伴潜力股
新浪财经· 2025-10-08 12:16
算力增长预测与战略重要性 - 到2035年,全社会算力总量将增长10万倍[1] - 2025年中国智能算力规模将达到1037.3 EFLOPS,较2024年增长43%[2] - 2026年中国智能算力规模将达1460.3 EFLOPS,实现两年翻倍增长[2] - 全球主要经济体将算力视为战略资源,美国通过《芯片与科学法案》投入520亿美元补贴半导体产业[2] - 欧盟启动《欧洲芯片法案》,计划2030年占全球20%市场份额[2] 算力需求驱动领域 - AI大模型训练、自动驾驶、智慧城市、工业机器人及军工领域对算力需求激增[4] - 智能汽车领域,单车算力需求年复合增长超50%[4] - 卫星互联网领域,全球低轨卫星数据处理需求激增[4] - 工业4.0领域,智能制造对实时算力要求不断提升[5] 算力产业链相关公司 - 紫光股份旗下新华三为NVIDIA企业级产品总代理,提供全栈解决方案[6] - 英维克向IDC公司提供机房及服务器内部的液冷系统,客户包括华为、英伟达[6] - 工业富联作为英伟达核心供应商,AI服务器产品线成长迅猛,GB200系列实现量产爬坡[7] - 烽火通信旗下长江计算为算力基础设施国家队,与昇腾合作发布解决方案,为华为供货[8] - 某公司液冷方案通过5000次插拔零泄漏验证,达到英伟达GB300架构要求,是华为昇腾910D芯片液冷系统独家供应商[9]
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 17:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
深圳商报· 2025-05-12 06:32
腾讯技术优化DeepEP通信框架 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化 在RoCE网络环境性能提升100% 在IB网络环境提升30% [2] - 优化后的技术方案获得DeepSeek公开致谢 被称为"huge speedup"代码贡献 [2] - 该技术已应用于腾讯混元大模型等项目的训练推理 在腾讯星脉与H20服务器构建的高性能环境中展现卓越通用性 [3] DeepEP通信框架原始性能 - DeepSeek开源DeepEP在内的五大代码库 展示如何利用有限硬件资源实现接近万卡集群性能 [2] - DeepEP凭借突破性方法提升300%通信效率 成功解决MoE架构大模型对英伟达NCCL的依赖问题 [2] - 原始技术在RoCE网络环境中表现不佳 限制了更广泛场景的应用 [2] 腾讯优化关键技术突破 - 通过拓扑感知的多QP建链技术 智能分配数据流 优化双端口网卡带宽利用率 避免带宽浪费 [3] - 基于IBGDA技术优化 解决GPU通信中CPU控制瓶颈问题 降低延迟和能耗 [3] - 提出"QP内时序锁"机制 使多个GPU间数据传输能精准按顺序完成 即使同时处理1000多个任务也能自动理顺顺序 [3] 技术应用与行业影响 - 腾讯优化使DeepEP在RoCE网络性能翻倍 反哺IB网络时通信效率再提升30% [3] - 该技术已全面开源 为AI大模型训练提供更高效解决方案 [2][3]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 19:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]