Workflow
分布式训练
icon
搜索文档
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 15:37
大模型系统性问题与国产AI挑战 - 大模型发展面临推理慢、训练不稳、数据迁移难等系统性挑战 这些因素决定技术规模化落地能力 [1] - 国产AI需解决算力适配、系统容错、数据合规等现实问题 特别是摆脱对进口芯片的依赖 [1] - AICon大会将聚焦国产芯片推理适配、开源部署、训练容错机制等七大关键议题 覆盖基础设施建设全貌 [1] 国产算力与推理优化技术 - 清程极智开源赤兔推理引擎 实现在非英伟达Hopper架构及国产芯片上原生运行FP8精度模型 解决硬件成本高企问题 [4] - 华为昇腾推出DeepSeek大模型推理架构 提供性能优化方案与专家并行调度技术 加速国产算力平台部署 [5][6] - 京东零售分享LLM推理优化实践 通过请求调度与流水线执行技术 平衡高吞吐与低延迟的零售级需求 [7][8] 训练系统与开源生态 - 蚂蚁集团开源DLRover框架 解决万卡规模训练的稳定性问题 包含分布式容错与国产卡适配经验 [11] - SGLang推理引擎整合专家并行、推测解码等前沿技术 实现DeepSeek V3等开源模型低成本部署 [9][10] - 阿里巴巴探讨强化学习系统发展 涵盖RLHF架构、自对齐算法及开源生态建设方向 [8][9] 数据基础设施演进 - Zilliz推出向量数据库云原生方案 解决GenAI场景下的数据迁移、BYOC部署和Schema演进问题 [12] - 行业面临传统数据库架构不适应AI需求的问题 需构建企业级向量数据管理平台 [12] 行业动态与人才流动 - 百度大幅扩招AI人才 岗位数量增长超60% 反映行业对顶尖技术人才的激烈争夺 [12] - 阶跃星辰高管转投京东 显示头部企业间核心人才竞争白热化 [12] - ClaudeCode获企业青睐 日均使用成本达1000美元/员工 凸显高性能AI工具的商业价值 [12]
德科立:DCI需求旺盛,产能瓶颈有望逐渐缓解-20250522
山西证券· 2025-05-22 17:48
报告公司投资评级 - 报告对德科立(688205.SH)的投资评级为“增持 - A(下调)” [4] 报告的核心观点 - 2024 年德科立收入、利润微幅增长,2025 年一季报收入略增但利润同比下降,主要因 DCI 产能释放、产品结构调整等致业绩释放不达预期,但公司在手订单饱满且产能持续提升 [4][5] - 北美 DCI 市场需求旺盛,公司在 DCI 光层和子系统电层 ODM 有竞争优势,随着新产线认证和投产,年底供应瓶颈或有效缓解 [6] - 国内 2025 年算力投资拉动下,传输网骨干网投资有望保持韧性,公司传输网产品有望逐步恢复拉货动能 [9] - 预计公司 2025 - 2027 年收入分别为 12.5/18.1/22.7 亿元,归母净利润分别为 1.4/2.2/2.9 亿元,因新增产能爬坡及验证需时间和参考行业平均估值水平,调整评级为“增持 - A” [10] 根据相关目录分别进行总结 市场数据 - 2025 年 5 月 22 日收盘价 67.85 元,年内最高/最低 116.00/24.10 元,流通 A 股/总股本 0.68/1.21 亿,流通 A 股市值 46.04 亿,总市值 82.03 亿 [3] 基础数据 - 2025 年 3 月 31 日基本每股收益 0.12 元,摊薄每股收益 0.12 元,每股净资产 18.70 元,净资产收益率 0.64% [3] 事件描述 - 2024 年公司实现收入 8.4 亿,同比增长 2.8%,传输产品线收入 7.2 亿元同比下滑 3.5%,数据和接入产品线收入 1.0 亿元同比增长 70.0% [4] - 2025 年一季度公司实现收入 2.0 亿元,同/环比分别 +6.0%、 - 17.4%;归母净利润为 0.2 亿元,同/环比分别 - 36.8%、 - 39.8% [4] 事件点评 - 2025 年一季度业绩释放不达预期,一是高毛利率业务主动调价且收入占比下降,综合毛利率 27.2%,较去年同期下滑 5.4pct;二是 DCI 业务成本激增,原定降本方案未及时落地 [5] - 25Q1 存货账面价值 4.2 亿元,同比 +21.6%,固定资产账面价值 2.7 亿元,同比 +98.5%,反映在手订单饱满且产能持续提升 [5] 行业趋势 - 大模型分布式训练和推理需求本地化部署下,北美 DCI 市场需求强劲,2025 - 2030 年 DWDM 光模块将回暖 [6] - 国内 2025 年算力投资拉动下,传输网骨干网投资有望保持韧性,对全光交换机等设备和模块需求增长 [9] 盈利预测与投资建议 - 预计公司 2025 - 2027 年收入分别为 12.5/18.1/22.7 亿元,归母净利润分别为 1.4/2.2/2.9 亿元 [10] - 因新增产能爬坡及验证仍需时间以及参考光模块行业平均估值水平,调整公司评级为“增持 - A” [10] 财务数据与估值 |会计年度|2023A|2024A|2025E|2026E|2027E| | --- | --- | --- | --- | --- | --- | |营业收入(百万元)|819|841|1245|1812|2268| |YoY(%)|14.6|2.8|48.0|45.6|25.1| |净利润(百万元)|92|100|139|223|287| |YoY(%)|-9.4|9.1|38.0|60.6|29.1| |毛利率(%)|26.1|30.9|31.7|33.3|33.2| |EPS(摊薄/元)|0.76|0.83|1.15|1.84|2.38| |ROE(%)|4.2|4.5|5.8|8.8|10.6| |P/E(倍)|89.1|81.7|59.2|36.9|28.6| |P/B(倍)|3.8|3.7|3.4|3.2|3.0| |净利率(%)|11.3|11.9|11.1|12.3|12.7| [12]
谁拥有最多的AI芯片?
半导体行业观察· 2025-05-04 09:27
人工智能超级计算机性能增长 - 自2010年以来用于训练著名AI模型的计算量每年增长4.1倍,实现聊天机器人、图像生成等突破 [1] - 领先AI超级计算机性能每9个月翻一番,年增长率达2.5倍,主要依赖芯片数量(年增1.6倍)和单芯片性能(年增1.6倍)提升 [2][23] - 2025年最大系统xAI Colossus性能达2019年领先系统Summit的50多倍,包含20万个AI芯片 [21][23] 资源需求趋势 - AI超级计算机硬件成本年增1.9倍,2025年最大系统成本达70亿美元 [3][50] - 电力需求年增2.0倍,2025年最大系统需300兆瓦(相当于25万户家庭用电量) [3][41] - 能源效率年提升1.34倍,主要来自芯片改进而非基础设施优化 [45][47] - 按当前趋势,2030年最大系统需200万芯片/2000亿美元成本/9GW电力(相当于9个核反应堆) [4][73] 行业格局变化 - 私营部门份额从2019年40%飙升至2025年80%,公共部门降至20%以下 [8][56] - 公司系统性能年增2.7倍,远超公共部门1.9倍增速 [29][32] - 美国占全球AI超算性能75%,中国以15%居第二,传统强国份额不足3% [10][63] - 美国主导源于云计算和AI开发领先地位,控制关键芯片供应链 [79][81] 技术发展驱动 - AI超级计算机增长与最大训练任务算力需求(年增4-5倍)保持一致 [33][34] - 投资激增形成良性循环:更好基础设施→更强AI系统→更多投资 [70] - 电力限制可能成为主要瓶颈,推动分布式训练发展 [77] - 学术研究受限,工业界系统透明度降低影响政策制定 [82][83] 数据集与方法 - 覆盖2019-2025年500+系统,估计占全球AI超算总性能10-20% [1][19] - 定义标准:含AI芯片且达领先系统1%性能 [18] - 数据来源包括公司公告、Top500条目和模型训练记录 [19]
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 12:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...