Workflow
分布式训练
icon
搜索文档
大模型能力技术培训:让数据智能像水电 样简单
数巅科技· 2026-02-28 09:20
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告核心观点 - 大语言模型是包含百亿或更多参数的语言模型,其发展经历了基础模型、能力探索和突破发展三个阶段,以2022年11月ChatGPT的发布为标志进入突破发展阶段[3][32][36] - 大语言模型展现出涌现能力,如上下文学习、指令遵循和逐步推理,使其能够以少量样本处理复杂的新任务,并作为基座模型支持多元应用[8][9][11] - 大语言模型通过预训练、有监督微调、奖励建模和强化学习等阶段训练而成,其巨大的参数量(十亿到万亿级)和分布式训练技术是关键支撑[12][59][99] - 该技术对自然语言处理、信息检索、计算机视觉、AI Agent乃至通用人工智能(AGI)的发展产生了深远影响,并催生了以对话为统一入口的全新应用范式[7][10] - 行业已形成开源与闭源模型并存的格局,国内外多家科技公司发布了具有竞争力的大语言模型产品[4][38][39] 语言模型技术发展历程 - **早期发展**:语言模型于上世纪90年代出现,采用统计学方法;2003年首次融入深度学习思想;2018年Transformer架构的提出是关键转折点[4] - **预训练时代**:2018年,BERT和GPT-1开启了预训练语言模型(PLM)时代;2020年,拥有1750亿参数的GPT-3发布,开启大语言模型新时代,并引入了缩放法则,指出模型性能随参数、数据量和计算量的指数增加而线性提高[26][28][33] - **发展三阶段**: - **基础模型阶段(2018-2021)**:研究聚焦于模型结构本身,参数量在10亿以上的模型因微调计算量大,影响力初期受限[32] - **能力探索阶段(2019-2022)**:探索无需任务特定微调即可发挥大模型能力的方法,如语境学习(ICL)、指令微调,并出现了InstructGPT等算法[34][35] - **突破发展阶段(2022年11月起)**:以ChatGPT发布为起点,模型展现出强大的通用对话和任务处理能力,GPT-4进一步具备多模态能力,在基准考试中得分高于88%的应试者[36][37] - **核心模型演进**:从基于n-gram的统计模型,到神经语言模型(NLM),再到基于Transformer的大规模预训练语言模型(PLM),最终发展为参数量巨大的大语言模型[13][23][26] 大语言模型核心特性与能力 - **关键特性**:参数规模巨大(十亿至万亿),采用预训练与微调范式,具有上下文感知、多语言与多模态支持能力,但同时也面临生成有害内容、隐私、幻觉等伦理与风险问题[12] - **涌现能力**:包括上下文学习(ICL)、指令遵循和逐步推理(思维链),这些能力使其成为全新的AI范式,能够缩短具体应用的开发周期并提升效果[8][11] - **基座模型能力**:作为基座模型支持多元化的下游应用开发[9] - **统一入口能力**:支持以对话作为完成各类任务的统一入口,即Conversation as a Platform[10] 主要大语言模型产品(国内外) - **国外闭源模型**: - **GPT系列(OpenAI)**:GPT-3参数量1750亿,预训练数据量3000亿Token;ChatGPT基于GPT-3.5/GPT-4;GPT-4具备多模态能力,推测参数量达1.8万亿,上下文窗口达128k Token[4][39][43] - **Claude(Anthropic)**:Claude 2上下文窗口扩展到200K Token,擅长长文档处理与结构化数据输出[44] - **PaLM 2(Google)**:PaLM参数量5400亿,PaLM 2是其升级版,已部署于25个Google产品中,其Bard为会话应用[4][45] - **国内闭源模型**: - **文心一言(百度)**:基于参数量达2600亿的文心大模型,具备知识增强、插件机制等特点[4][47][48] - **讯飞星火(科大讯飞)**:3.0版本包含1700亿参数,支持多模态功能,并发布了支持私有化训练的“星火一体机”[4][49] - **通义千问(阿里巴巴)**、**腾讯混元**、**360智脑**等[4][39] - **开源模型**: - **LLaMA系列(Meta)**:参数规模从7B到70B,LLaMA-65B训练消耗超过102万GPU小时,LLaMA 2参数量达700亿[38][51][99] - **ChatGLM(智谱AI/清华)**:GLM3支持32K上下文长度,采用Multi-Query Attention提升推理速度[53] - **通义千问(阿里巴巴)**:开源70亿(7B)和140亿(14B)参数版本[56] - **Baichuan(百川智能)**:开源7B和13B参数模型,Baichuan-13B基于1.4万亿字符训练[57] 大语言模型训练技术 - **训练流程**:主要包含四个阶段:预训练、有监督微调(指令微调)、奖励建模和强化学习[59] - **预训练**: - 使用互联网网页、维基百科、书籍等海量数据,构建数千亿至数万亿单词的语料库,在数千块GPU上耗时数十天完成[61] - 数据需经过严格过滤,例如GPT-3将45TB的Common Crawl数据过滤至570GB使用[63] - **有监督微调(SFT)**:使用包含用户提示和理想输出的高质量小数据集对基座模型进行微调,使模型具备初步的指令理解与泛化能力,此类模型包括Alpaca、Vicuna、ChatGLM-6B等[67][71] - **奖励建模(RM)**:训练一个二分类模型,用于对同一提示下SFT模型的不同输出结果进行质量排序,为强化学习提供奖励信号[72] - **强化学习(RL)**:基于奖励模型,通过强化学习算法(如PPO)进一步优化SFT模型的参数,使模型生成更高奖励的文本,最终得到如ChatGPT、Claude等系统,但该方法存在稳定性挑战[76] - **分布式训练**: - 因模型与数据量巨大,必须采用分布式训练。例如,OPT使用992块A100 GPU训练近2个月;BLOOM使用384块A100 GPU训练3.5个月[64][99] - 并行策略包括数据并行(DP)、流水线并行(PP)和张量并行(TP),大模型训练通常混合使用这些策略[105][106][114] - 采用ZeRO优化器、混合精度训练等技术来优化内存占用,例如1750亿参数模型若使用FP16格式,模型状态需占用120GB内存[117][121] - **长文本建模**:为处理长文本,采用增加上下文窗口微调、改进位置编码(如ALiBi)或插值法来扩展模型的上下文处理能力[151] 大语言模型应用与生态 - **技术影响**:推动自然语言处理(文本理解与生成)、信息检索(智能搜索)、计算机视觉(文生图)、AI Agent(智能助理、数字人)等领域发展,并被视为通用人工智能(AGI)的早期形式[7] - **应用开发框架**:LangChain等框架简化了大语言模型应用开发,提供模型I/O、数据连接、智能体等标准化接口[177][178] - **提示与语境学习**:提示学习(Prompt-based Learning)和语境学习(In-Context Learning, ICL)成为使用大模型的新范式,无需参数更新即可让模型适应新任务[139][143] - **高效微调技术**:如LoRA,通过引入少量可训练参数来高效微调大模型,节省计算资源[149] - **思维链与任务分解**:思维链提示和由少至多提示等策略能显著提升大模型在复杂推理和规划任务上的表现[172][175]
谷歌TPU机架的互联方案,OCS市场空间测算
傅里叶的猫· 2025-12-02 21:34
谷歌TPU v7互联架构与市场空间 - 谷歌TPU v7采用4×4×4三维环形拓扑结构实现互联,每个包含64颗TPU的立方体单元对应一个物理机架[7][8] - 每颗TPU通过6个连接与相邻节点互联,其中2个通过PCB走线,其余4个根据在立方体中的位置采用铜缆或光模块连接[8][9][11] - 64颗TPU的机架中,铜缆、PCB、光模块的需求比例分别为1:1.25、1:1、1:1.5,具体数量为80根铜缆、64个PCB、96个光模块[12][13] TPU Pod规模与光互联需求 - 单个TPU Pod最多可包含144个机架,TPU总数量达9216颗[14][16] - 单个Pod需要11520根DAC铜缆和13824个1.6T光模块,光模块需求是市场预期谷歌明年需要1000万个1.6T光模块的原因[16] - 144个机架总光端口数为13824个,与48台300端口OCS交换机的有效端口数完全匹配[16] 液冷技术市场前景 - 谷歌自2018年TPU v3时代开始采用液冷机架,预计2026年TPU v7及以上将全面运用液冷[6][7] - 2026年谷歌TPU v7及以上预计出货250万颗,对应约4万个机柜,液冷单柜价值量7-8万美元,市场空间28-32亿美元[7] - 2027年出货量预计超500万颗,单柜价值量可能提升至9-10万美元,市场空间达70-80亿美元[7] OCS交换机市场空间与供应链 - 2026年谷歌预计需要约15000台300端口OCS交换机,其中约12000台由内部制造,3000台外部采购[17] - 按每台OCS交换机15万美元计算,明年OCS市场空间约22亿美元[17][18] - OCS关键部件供应商包括Silex、Lumentum、Coherent、腾景科技、康宁、光库科技等,涉及MEMS芯片、光学元件、FAU等组件[19] 谷歌与NV供应链企业梳理 - 国内谷歌供应链企业包括光库科技、德科立、腾景科技、英维克、金盘科技等,涉及OCS代工、光学器件、液冷、电源等产品[21] - NV供应链企业包括英维克、思泉新材、科创新源、鼎通科技等,主要提供液冷、电源相关组件[21] - 部分企业处于送样或小批量供应阶段,产品毛利率在10%-30%区间[21]
德科立(688205):DCI产能持续建设中,硅基OCS已获千万订单
山西证券· 2025-09-19 11:01
投资评级 - 增持-A评级(维持) [2] 核心观点 - 德科立DCI产能建设持续推进 硅基OCS已获得千万元级别订单 [4][6][7] - 北美DCI互联市场需求爆发 2025年全球DCI产值预计达400亿美元(同比+14.3%) 2026年有望突破500亿美元 [6] - 公司2025年上半年营收4.3亿元(同比+5.9%) 归母净利润0.3亿元(同比-48.2%) 综合毛利率26.3%(同比-5.2pct) [4] - 预计2025-2027年归母净利润分别为0.9/2.9/5.9亿元 对应PE分别为247/76/38倍 [8] 财务表现 - 2025年上半年传输产品线营收3.3亿元(同比-7.9%) 毛利率下滑4.4pct [5] - 接入和数据产品线营收1.0亿元(同比+104.7%) 主要受益于数通市场DCI和高速光模块增长 [5] - 预计2025年营收11.77亿元(同比+39.9%) 2026年营收22.30亿元(同比+89.4%) 2027年营收34.50亿元(同比+54.7%) [10] - 预计毛利率将从2025年27.6%提升至2027年34.7% [10] 业务进展 - DCI产品线面临产能释放瓶颈 泰国产线验厂投产需要时间 [5] - 公司长期服务Infinera、Ciena、诺基亚、ECI等海外客户 [6] - 硅基OCS光交换机已出货样机 2024年获千万元订单 2025年预计还有千万级以上样机订单 [7] - 第二代高维度OCS研发加速推进 目标2026年上半年推出样机 [7] 市场前景 - 2025年Q2全球光传输设备市场同比增长14% 主要受分解式波分复用设备和DCI需求推动 [6] - 北美DCI需求增长来自三方面:新建数据中心物理连接、分布式训练需求、分布式推理兴起 [6] - OCS光交换机在AI训练和推理网络中呈现功耗、时延和成本优势 获大厂重视 [7]
华为Cloud Matrix 384中需要多少光模块?
傅里叶的猫· 2025-08-21 23:06
半导体行业研究 核心观点 - 文章基于华为Cloud Matrix 384论文和申万宏源分析内容,重点探讨了半导体行业中光模块与NPU的用量比例关系 [3][5] Cloud Matrix 384架构 - **UB平面**:作为超节点内部核心扩展网络,采用非阻塞全对全拓扑连接NPU和CPU,每个昇腾910C提供392GB/s单向带宽,用于TP/EP和大规模分布式内存池访问 [7] - **RDMA平面**:用于超节点间横向扩展通信,采用RoCE协议连接NPU,支持KV Cache传输和分布式训练 [7] - **VPC平面**:通过华为擎天DPU接入数据中心网络,处理管理、存储和外部服务通信 [7] 光互联与电互联 - CM384的Level 1和Level 2 UB Switch之间采用光互联,但节点内部仍使用电互联,因短距离光互联成本及功耗过高 [9] 光模块用量计算 - **Scale Up场景**: - 每台服务器中每个UB Switch芯片对应8个400G光模块,整台服务器需56个400G或28个800G双通道光模块 [12] - 两层UB Switch系统下,每台服务器8个NPU对应112个400G或56个800G光模块,NPU与400G/800G光模块比例分别为1:14和1:7 [12] - **Scale Out场景**: - 采用胖树架构扩容时,光模块需求比例约为1:4(NPU与400G光模块) [13][14] 其他信息 - 英伟达B200/B300系列已成为主力产品 [15] - 知识星球提供行业信息、外资投行数据及分析报告更新 [17]
以太网 vs Infiniband的AI网络之争
傅里叶的猫· 2025-08-13 20:46
核心观点 - AI网络技术路线中以太网与InfiniBand的竞争格局已基本明确 以太网将在AI训练和推理场景中胜出 主要基于成本优势、生态兼容性和规模化部署能力[6][8][22][23] - 当前AI网络市场仍由InfiniBand主导 主要受英伟达服务器市占率超过70%的影响 但存在设备成本高和供应链依赖问题[8][14] - 超以太网联盟(UEC)已成立 目标是通过优化传统以太网性能 在AI领域与InfiniBand直接竞争 创始成员包括英特尔、AMD、博通、思科、微软、Meta等头部厂商[8] AI网络技术选型关键问题 - 部署选择:需考虑是否在现有TCP/IP网络上搭建 或建设专用高性能网络[9] - 技术路线:InfiniBand与RoCE v2的取舍 涉及带宽、时延、成本等多维度比较[9][12] - 运维管理:网络故障诊断与恢复机制[9] - 多租户能力:需同时满足内部研发和对外算力服务需求[9] 网络性能需求背景 - 大模型参数量已达百亿至千亿级 自动驾驶单次训练数据规模常达PB级[10] - GPT-3量级模型需要约2TB GPU显存 必须采用分布式训练将训练时间从三十年压缩至数周[10] - 分布式系统效率瓶颈在于通信时延 单步训练时延=GPU计算时间+通信时间[10] RDMA技术对比 - 主流技术路线收敛至InfiniBand和RoCE v2 RoCEv1和iWARP已基本退出市场[12] - RoCEv2通过UDP/IP封装实现三层可达 支持ECMP负载均衡 更适合复杂拓扑[12] - 延迟表现:实验室环境下 RoCE约5µs InfiniBand约2µs 显著优于传统TCP/IP的50µs[12] InfiniBand技术特征 - 典型组网:子网管理器(SM)+IB网卡+交换机+专用线缆/光模块[13] - 端口速率:HDR 200Gbps已商用 NDR 400Gbps正在落地 Quantum-2交换机支持64×400G连接[13] - 核心优势:原生无损传输(基于credit流控)和自适应路由能力[14][15] - 市场格局:英伟达市占率超70% 但Intel、Cisco、HPE等也有相关产品[14] RoCE v2技术特征 - 组网架构:标准以太网数据中心网络+支持RoCE的NIC和交换机[15] - 端口速率:50Gbps起步 商用产品已支持400Gbps[15] - 生态优势:沿用现有以太网布线标准 光模块体系兼容性强[15] - 工程挑战:需精细调优PFC、ECN等参数才能实现大规模无损传输[15] 直接性能对比 InfiniBand优势 - 带宽/速率高:专注端口速率快速提升[20] - 传输时延低:单跳转发时延<100ns[20] - 在网计算能力:交换机可理解业务报文[20] - 无损传输:基于credit的链路级流控[20] 以太网优势 - 线缆带宽和端口速度优于InfiniBand[21] - 大集群组网仅需两层结构 规模可达InfiniBand的4倍[21] - 动态负载平衡、端到端拥塞管理等特性更完善[21] - 整体功耗更低 交换机数量少3倍[21] 应用场景趋势 - 推理场景:以太网更适配 因其与前端网络兼容性好 且支持多租户[22][23] - 训练场景:InfiniBand当前占优 但以太网通过RoCE v2正在追赶[8][15] - 成本因素:以太网部署成本显著低于InfiniBand[21][23]
谁拥有最多的AI芯片?
半导体行业观察· 2025-05-04 09:27
人工智能超级计算机性能增长 - 自2010年以来用于训练著名AI模型的计算量每年增长4.1倍,实现聊天机器人、图像生成等突破 [1] - 领先AI超级计算机性能每9个月翻一番,年增长率达2.5倍,主要依赖芯片数量(年增1.6倍)和单芯片性能(年增1.6倍)提升 [2][23] - 2025年最大系统xAI Colossus性能达2019年领先系统Summit的50多倍,包含20万个AI芯片 [21][23] 资源需求趋势 - AI超级计算机硬件成本年增1.9倍,2025年最大系统成本达70亿美元 [3][50] - 电力需求年增2.0倍,2025年最大系统需300兆瓦(相当于25万户家庭用电量) [3][41] - 能源效率年提升1.34倍,主要来自芯片改进而非基础设施优化 [45][47] - 按当前趋势,2030年最大系统需200万芯片/2000亿美元成本/9GW电力(相当于9个核反应堆) [4][73] 行业格局变化 - 私营部门份额从2019年40%飙升至2025年80%,公共部门降至20%以下 [8][56] - 公司系统性能年增2.7倍,远超公共部门1.9倍增速 [29][32] - 美国占全球AI超算性能75%,中国以15%居第二,传统强国份额不足3% [10][63] - 美国主导源于云计算和AI开发领先地位,控制关键芯片供应链 [79][81] 技术发展驱动 - AI超级计算机增长与最大训练任务算力需求(年增4-5倍)保持一致 [33][34] - 投资激增形成良性循环:更好基础设施→更强AI系统→更多投资 [70] - 电力限制可能成为主要瓶颈,推动分布式训练发展 [77] - 学术研究受限,工业界系统透明度降低影响政策制定 [82][83] 数据集与方法 - 覆盖2019-2025年500+系统,估计占全球AI超算总性能10-20% [1][19] - 定义标准:含AI芯片且达领先系统1%性能 [18] - 数据来源包括公司公告、Top500条目和模型训练记录 [19]