Workflow
傅里叶的猫
icon
搜索文档
国内外AI服务器Scale up方案对比
傅里叶的猫· 2025-08-18 23:04
Scale Up技术概述 - Scale Up通过提升单台服务器的计算密度增强算力,如集成更多高性能GPU、更大内存或更快存储,形成"超级节点"[1] - 特点包括高带宽、低时延,适合AI推理的大显存并行计算及训练中的张量并行(TP)和专家并行(EP)任务[1] - 支持在网计算,如在Switch节点加速All Reduce操作,提升GPU协作效率[1] - 依赖高端硬件导致成本较高,常与Scale Out结合使用以兼顾性能与扩展性[1] 英伟达NVLink方案 - 采用自研NVLink高速互连技术,通过铜缆实现机柜内GPU高带宽低延迟连接[3] - GB200 NVL72架构集成18个计算托盘和9个NVLink Switch托盘,每个计算托盘含4颗B200 GPU(共72颗)[3][8] - 每个NVSwitch5芯片带宽28.8Tb/s,整机柜含18颗NVSwitch5芯片,共72个端口对应72颗GPU[8] - B200 NVLink带宽1.8TB/s,含18个端口,每个端口带宽100GB/s(2x224G PAM4 Serdes)[8] - 未来Rubin架构将升级至NVLink 6.0/7.0,带宽密度提升,延迟降低[5] NVLink Fusion生态开放 - 推出NVLink Fusion技术,向第三方CPU/加速器开放生态,允许通过NVLink C2C或NVLink 5 Chiplet集成[11][12] - 采用"二选一"模式:仅支持半定制CPU或加速器,节点必须包含英伟达芯片[12] - 合作伙伴包括Alchip、AsteraLabs等芯片厂商,富士通/高通研发兼容CPU,Cadence/Synopsys提供IP支持[13] AMD UALink方案 - UALink是由AMD等公司推出的开放互连标准,支持每通道200GT/s,最多连接1024个加速器,延迟<1微秒[16] - MI400采用UALoE方案,通过以太网物理层传输UALink协议,兼容现有以太网生态[17] - Helio UALoE 72架构含18个计算托盘(各4颗MI400 GPU)和6个交换托盘(各2颗Tomahawk6 102.4T交换机)[18] 其他厂商方案 - **AWS NeuronLink**:基于PCIe Gen5协议,Trn2-Ultra64机柜间用AEC、机柜内用DAC互连,Teton PDS Ultra含40个Scorpio X交换机[21][22] - **Meta SUE**:采用博通Tomahawk5/Jericho3交换芯片,Minerva架构含16个MTIA计算托盘和6个交换托盘[24] - **Google ICI**:TPU v4 pod采用3D Torus拓扑(4×4×4),机柜内DAC连接,机柜间通过OCS光交换组成4096 TPU集群[26] - **华为UB**:Cloud Matrix 384系统含384颗昇腾910C芯片,通过统一总线(UB)光互连,使用6912个400G光模块[28][29] 技术演进趋势 - NVLink带宽从4.0的450GB/s提升至7.0的1800GB/s,NVSwitch聚合带宽从1600GB/s增至14400GB/s[6] - 互连技术从封闭走向有限开放(如NVLink Fusion),同时出现开放标准(UALink)与私有协议(ICI/NeuronLink)并存[11][16][26] - 光互连在跨机架场景应用增多(华为UB用5376个400G光模块),铜缆仍主导机柜内连接[29][3]
光模块数据更新:需求量、出货量、主要客户及供应商
傅里叶的猫· 2025-08-17 22:11
全球光模块需求预测 - 2025年全球400G+光模块总需求预计为37,500千单位 其中400G需求15,000千单位 800G需求20,000千单位 1.6T需求2,500千单位 [1] - 2026年总需求预计为48,000千单位 其中400G需求大幅下降至6,000千单位 800G需求显著增长至45,000千单位 1.6T需求开始放量 [1] - 2027年400G需求进一步下降至1,200千单位 800G需求稳定在49,500千单位 1.6T将成为主要增量 [1] 主要客户供应链分析 - 中际旭创是Amazon Google Meta Microsoft Nvidia Oracle等主要客户的核心供应商 [2] - 新易盛在多个客户供应链中作为次要供应商 包括Amazon Meta Microsoft Nvidia Oracle等 [2] - AAOI Fabrinet Lumentum Coherent Source Photonics等供应商在部分客户中的份额正在提升 [2] 新易盛出货量预测 - 2025年新易盛预计出货400G模块4,500千单位 800G模块4,000千单位 1.6T模块550千单位 [2] - 2026年400G出货量预计锐减至600千单位 800G大幅增长至10,000千单位 1.6T增至1,760千单位 [2] - 2027年400G出货量进一步降至60千单位 800G增至13,000千单位 1.6T快速扩张至3,960千单位 [2] 天孚出货量预测 - 2024年天孚800G模块出货650千单位 1.6T模块10千单位 [3] - 2025年800G出货预计300千单位 1.6T增至800千单位 [3] - 2026年800G出货600千单位 1.6T增至1,200千单位 [3] - 2027年800G出货保持600千单位 1.6T大幅增长至6,300千单位 [3]
【8月28-29日上海】先进热管理年会最新议程
傅里叶的猫· 2025-08-15 23:10
论坛概览 - 2025第四届中国先进热管理技术年会将于8月28-29日在上海举办,聚焦汽车电子与AI服务器/数据中心两大行业的热管理技术,涵盖高算力芯片与高功率器件热管理难题 [2] - 论坛设置1个全体会场和4个分会场,覆盖12大专题领域,预计安排60+演讲和600+行业专家参会 [2] - 主办方为车乾信息&热设计网,支持单位包括中国电子工业标准化技术协会热管理行业工作委员会、英业达、芯榜等 [2] 全体会场议题 - 8月28日上午主题为"AI人工智能与智能汽车双驱动-热管理机遇与挑战",包含曙光信息、中兴通讯、中国移动等企业的技术分享 [3][28] - 核心演讲包括曙光信息的"新液冷"破题智算热技术、中兴通讯的通讯及算力产品热管理方案、中国移动的高密智算中心热管理技术等 [3][28] 分会场一:液冷数据中心 - 8月28日下午聚焦液冷数据中心开发,曙光数据、华鲲振宇、瓦克化学等企业分享浸没式液冷解决方案及有机硅冷却液技术 [5][29][30] - 8月29日上午继续探讨液冷技术,中兴通讯分析两相冷板液冷趋势,新华三展示全栈液冷方案,中国计量大学研究微型制冷剂泵设计 [6][32] - 8月29日下午讨论液冷组件技术,兰洋科技展示集装箱式浸没液冷节点,慧算云谷分享浸没式液冷研究进展 [7][34] 分会场二:高算力芯片与AI服务器 - 8月28日下午复旦大学、长电科技等机构探讨高算力芯片热管理,涉及两相回路热控、先进封装技术等 [8][36] - 8月29日上午英业达、超云数字等企业分享液冷服务器技术,云道智造展示电子散热仿真软件创新应用 [10][38] - 8月29日下午聚焦AI散热器开发,上海理工大学提出微通道相变蓄热方案,锐盟半导体推出射流式压电散热风扇 [12][40] 分会场三:智能驾驶热管理 - 8月28日下午地平线、德赛西威等企业探讨智能驾驶域控制器热管理,涉及智驾芯片散热设计、中央计算平台挑战等 [13][42] - 8月29日上午哈曼展示Chiplet散热技术,上海交大研究人机协同驾驶热管理 [15][44] 分会场四:功率器件与封装材料 - 8月28日下午英飞凌、中科院微电子所等分享新能源功率器件热管理,包括SiC功率模块封装技术 [19][47] - 8月29日上午讨论功率半导体与TIM材料,士兰微电子分析新能源热管理系统,中科院理化所研究液态金属冷却 [20][49] - 8月29日下午聚焦封装工艺,哈工大探讨异质异构集成技术,上海大学研究碳基热管理材料 [23][51] 主办方背景 - 车乾信息成立于2018年,组织过动力电池、汽车电子热管理、AI芯片等领域的论坛,覆盖交通能源与通讯科技两大领域 [55] - 热设计网是中国电子工业标准化协会热管理行业工作委员会合作单位,提供技术培训、人才对接及实验室建设服务 [56]
华为产业链分析
傅里叶的猫· 2025-08-15 23:10
华为整体业绩表现 - 2024年公司实现销售收入8,620.72亿元,同比增长22.4% [5] - 智能汽车解决方案业务收入同比大增474.40%,终端业务增长38.3%,数字能源业务增长24.4% [5] - 中国区收入达6,152.64亿元,欧洲-中东-非洲地区收入1,483.55亿元,亚太地区收入433.06亿元,美洲地区收入363.01亿元 [5] 华为云业务 - 2024年下半年中国公共云市场规模达241.1亿美元,IaaS占54.8%达132.1亿美元,PaaS占18.1%达43.7亿美元 [6] - 华为云以13.20%市场份额成为中国第二大公有云IaaS厂商,营收增速24.40%为行业第一 [6] - 生成式AI驱动公共云市场增速回暖,IaaS+PaaS市场同比增长15.8% [6] CloudMatrix 384技术对比 - 昇腾910C单卡性能780 TFLOPS,仅为英伟达GB200单卡性能2,500 TFLOPS的31% [10][11] - CloudMatrix 384集群性能达300 PFLOPS,是英伟达GB200 NVL72集群性能180 PFLOPS的1.7倍 [10][11] - 采用光缆互联技术实现低时延高带宽,HBM总带宽1,229 TB/s超英伟达576 TB/s的2.1倍 [11] 鸿蒙操作系统特性 - 采用自研微内核架构,摆脱Linux依赖,性能优于安卓宏内核和iOS混合内核 [12][13] - 分布式软总线技术实现设备互联速度提升3倍,最多支持4台设备协同 [13] - AI助手集成大模型能力,支持复杂指令理解和跨设备控制 [13] 昇腾芯片技术体系 - 昇腾910系列采用chiplet技术,集成Davinci Core和HBM组件,专攻云端训练推理场景 [18][20] - Mindspore框架市场份额达30.26%,仅次于Pytorch成为主流AI开发框架 [22] - 产品线覆盖AI模块、加速卡、边缘设备、服务器及集群五类场景 [20] 麒麟芯片技术突破 - 麒麟9020性能介于骁龙8+与8 Gen2之间,达到高端处理器水准 [23][24] - 麒麟X90采用泰山V3架构,16核主频超4.2GHz,能效比提升40% [24][25] - AI算力达同级x86芯片5倍,GPU图形渲染性能接近苹果A15 [25] 鲲鹏服务器生态 - 基于ARM架构打造高性能低功耗处理器,推动国产替代x86服务器芯片 [27][29] - 通过硬件开放、软件开源策略构建产业生态,支持openEuler和openGauss商业版 [29]
CoWoS产能分配、英伟达Rubin 延迟量产
傅里叶的猫· 2025-08-14 23:33
CoWoS产能扩张 - 台积电CoWoS产能将从2025年底的70k wpm提升至2026年底的100-105k wpm,2027年进一步突破130k wpm [1] - 2025年全年产能预计为675k wafer,2026年达1.08mn wafer(同比增长60%),2027年增至1.43mn wafer(同比增长31%)[1] - 台南AP8工厂是产能扩张主力,2026年底将贡献约30k wpm产能,主要服务于英伟达Blackwell GPU和AMD MI355/400等高端芯片 [2] - 嘉义AP7工厂聚焦WMCM、CoWoS-L、SoIC及CoPoS等前沿技术,2027年后逐步释放产能 [2] 产能分配与客户结构 - 英伟达2026年仍将占据50.1%的CoWoS产能(2025年为51.4%),全年分配约541k wafer,主要用于Blackwell系列 [5] - AMD的CoWoS产能将从2025年的52k wafer增至2026年的99k wafer(占比9.2%),增长来自AI GPU和Zen 6 Venice CPU [5] - 博通2026年产能达187k wafer(同比增长71%),受益于Google TPU和Meta V3 ASIC的量产 [5] - 微软2026年预计仅分配8.7k wafer,主要用于Maia 200 [6] - 苹果聚焦WMCM技术,计划应用于折叠手机的A20 Pro芯片,2026年三季度产能达15k wpm [6] 技术迭代与创新 - CoPoS采用310x310mm矩形面板,支持9-12个光刻尺寸芯片,良率和基板利用率更高,成本更低,散热性能优于3D封装 [11] - 台积电计划2025下半年至2026上半年建立CoPoS迷你生产线,2028年底量产,首代产品可能用于英伟达Feynman系列 [11] - WMCM采用2-3层RDL,支持2-4个芯片集成,能应对更高功率(5-25W)和带宽需求,成本低于CoWoS [14] - 苹果计划将WMCM用于折叠手机,2026年二季度量产,预计全年出货15-18mn芯片 [14] 供应链与全球布局 - 台积电将CoWoS后端工序(OS环节)外包给ASE/SPIL,2026年这部分业务将为后者带来7.65亿美元收入,2027年增至19.8亿美元 [15] - ASE/SPIL的OS产能2026年底达65k wpm,2027年95k wpm [15] - 台积电与Amkor合作,在亚利桑那州布局封装产能,服务苹果等客户的智能手机芯片 [15] - 台积电在美国追加1000亿美元投资,总投资达1650亿美元,计划2028和2030年各投产一座先进封装厂,聚焦SoIC和CoPoS技术 [15] 市场趋势与业务贡献 - GPU主导AI加速器市场,2026年占CoWoS产能的64%(2025年为68%),收入占比达88% [15] - ASIC(如Meta V3、Google TPU)增速更快,产能占比升至36% [15] - AI相关收入占台积电总收入比例从2023年的6%升至2026年的35%,其中前端晶圆收入451.62亿美元,CoWoS后端收入62.73亿美元 [16] 英伟达Rubin项目 - 英伟达为应对AMD MI450显卡加速器,对Rubin芯片进行重新设计,可能导致量产延迟 [9] - 2026年Rubin芯片出货量预计较为有限,仅为72k wafer [9] - 英伟达官方否认延迟,强调Rubin项目仍按原计划推进 [10] - Rubin采用HBM4高带宽内存,搭载第六代NVLink互连总线,可实现3.6TB/s的超高带宽 [10]
从组织架构看腾讯的AI发展策略
傅里叶的猫· 2025-08-13 20:46
腾讯AI产业链研究 核心观点 - AI将成为公司第二季度财报的重要驱动力和焦点 [2] - 公司AI发展策略以组织架构为核心,TEG事业群承担大模型研发的关键角色 [3][4] - 公司采取开放策略,允许各产品事业部自主选择接入自研或第三方模型(如DeepSeek) [4] - 尽管自研大模型能力暂落后于阿里和字节,但在AI商业化领域具备独特优势 [5] 组织架构与AI分工 - **WXG(微信事业群)**:聚焦微信生态的智慧化解决方案,未明确提及AI产品 [3] - **IEG(互动娱乐事业群)**:主导游戏研发与泛娱乐生态,未列出AI相关产品 [3] - **PCG(平台与内容事业群)**:整合社交与数字内容生态,QQ浏览器为AI重点投入产品 [3][4] - **CSIG(云与智慧产业事业群)**:承载核心AI产品"元宝"和"ima",提供产业数字化解决方案 [3][4] - **TEG(技术工程事业群)**:研发混元大模型、多模态模型,作为全集团技术中台 [3][4] - **CDG(企业发展事业群)**:驱动战略投资与金融科技,未涉及AI产品 [3] AI产品与策略动态 - TEG集中研发大模型,但核心AI产品(元宝、ima)归属CSIG,QQ浏览器隶属PCG,体现研发与应用的分离 [4] - 管理层授权各事业部自主选择模型接入,促进内部竞争与TEG能力提升 [4] - PCG旗下QQ浏览器推出Qbot,显示产品线积极拥抱AI改造 [4] 竞争与商业化前景 - 自研大模型能力短期内可能落后于阿里和字节 [5] - 公司在AI商业化领域具备独特优势,预计各事业群将加速AI产品落地 [5]
以太网 vs Infiniband的AI网络之争
傅里叶的猫· 2025-08-13 20:46
核心观点 - AI网络技术路线中以太网与InfiniBand的竞争格局已基本明确 以太网将在AI训练和推理场景中胜出 主要基于成本优势、生态兼容性和规模化部署能力[6][8][22][23] - 当前AI网络市场仍由InfiniBand主导 主要受英伟达服务器市占率超过70%的影响 但存在设备成本高和供应链依赖问题[8][14] - 超以太网联盟(UEC)已成立 目标是通过优化传统以太网性能 在AI领域与InfiniBand直接竞争 创始成员包括英特尔、AMD、博通、思科、微软、Meta等头部厂商[8] AI网络技术选型关键问题 - 部署选择:需考虑是否在现有TCP/IP网络上搭建 或建设专用高性能网络[9] - 技术路线:InfiniBand与RoCE v2的取舍 涉及带宽、时延、成本等多维度比较[9][12] - 运维管理:网络故障诊断与恢复机制[9] - 多租户能力:需同时满足内部研发和对外算力服务需求[9] 网络性能需求背景 - 大模型参数量已达百亿至千亿级 自动驾驶单次训练数据规模常达PB级[10] - GPT-3量级模型需要约2TB GPU显存 必须采用分布式训练将训练时间从三十年压缩至数周[10] - 分布式系统效率瓶颈在于通信时延 单步训练时延=GPU计算时间+通信时间[10] RDMA技术对比 - 主流技术路线收敛至InfiniBand和RoCE v2 RoCEv1和iWARP已基本退出市场[12] - RoCEv2通过UDP/IP封装实现三层可达 支持ECMP负载均衡 更适合复杂拓扑[12] - 延迟表现:实验室环境下 RoCE约5µs InfiniBand约2µs 显著优于传统TCP/IP的50µs[12] InfiniBand技术特征 - 典型组网:子网管理器(SM)+IB网卡+交换机+专用线缆/光模块[13] - 端口速率:HDR 200Gbps已商用 NDR 400Gbps正在落地 Quantum-2交换机支持64×400G连接[13] - 核心优势:原生无损传输(基于credit流控)和自适应路由能力[14][15] - 市场格局:英伟达市占率超70% 但Intel、Cisco、HPE等也有相关产品[14] RoCE v2技术特征 - 组网架构:标准以太网数据中心网络+支持RoCE的NIC和交换机[15] - 端口速率:50Gbps起步 商用产品已支持400Gbps[15] - 生态优势:沿用现有以太网布线标准 光模块体系兼容性强[15] - 工程挑战:需精细调优PFC、ECN等参数才能实现大规模无损传输[15] 直接性能对比 InfiniBand优势 - 带宽/速率高:专注端口速率快速提升[20] - 传输时延低:单跳转发时延<100ns[20] - 在网计算能力:交换机可理解业务报文[20] - 无损传输:基于credit的链路级流控[20] 以太网优势 - 线缆带宽和端口速度优于InfiniBand[21] - 大集群组网仅需两层结构 规模可达InfiniBand的4倍[21] - 动态负载平衡、端到端拥塞管理等特性更完善[21] - 整体功耗更低 交换机数量少3倍[21] 应用场景趋势 - 推理场景:以太网更适配 因其与前端网络兼容性好 且支持多租户[22][23] - 训练场景:InfiniBand当前占优 但以太网通过RoCE v2正在追赶[8][15] - 成本因素:以太网部署成本显著低于InfiniBand[21][23]
为什么Agent Sandbox会成为下一代AI应用的基石?
傅里叶的猫· 2025-08-11 22:32
AI Agent沙箱技术演进 - 2023年OpenAI推出Code Interpreter功能,赋予ChatGPT执行Python代码能力,标志着AI Agent Infra技术时代开启[1] - AI代码执行催生安全需求,传统沙箱技术无法满足AI特性(不可预测性、易受注入攻击等),专为AI设计的Agent沙箱应运而生[14][16] - 技术演进分为三个阶段:传统安全沙箱(1990年代)、云端代码执行环境(2010年代)、AI Agent定制沙箱(2020年代)[2][6][13] 传统安全沙箱技术 - 1990年代Cuckoo Sandbox采用隔离环境分析恶意软件,2000年代VMware/Xen虚拟化增强隔离但资源消耗大[2] - 2013年Docker革命性解决三大问题:标准化容器化、轻量化共享内核、秒级启动速度[3][4][5] - Docker从开发工具演变为云计算隔离方案,为后续技术奠定基础[5] 云端代码执行环境 - 2017年CodeSandbox实现浏览器端完整IDE功能(代码编辑/实时预览/多人协作),推动开发环境云端化[6][8] - Replit专注教育市场,提供零配置编程环境支持50+语言,内置AI代码助手[7][9] - 2014年AWS Lambda开创无服务器计算,2018年Firecracker MicroVM实现毫秒级启动与硬件级隔离[10][11][12] AI Agent定制沙箱 - 2023年OpenAI Code Interpreter首次实现AI自主执行代码,暴露不可信代码安全问题[13][14] - E2B将Firecracker封装为API化服务,支持Python环境/状态管理/细粒度权限控制,启动时间<200ms[17][18][20][29] - PPIO国产沙箱兼容E2B协议,成本降低40%,具备系统级隔离与按秒计费优势[22][23][24] 行业趋势与基础设施 - 技术成熟度(Docker/Firecracker)+市场需求(AI会话驱动)+生态形成(E2B/PPIO)推动Agent沙箱成为AI时代基础设施[30] - 类比Docker改变软件部署、GitHub改变协作,Agent沙箱将成为AI能力与安全控制的核心平衡点[27][28]
直播PPT分享
傅里叶的猫· 2025-08-11 22:32
国产GPU行业分析 - 近期直播内容涵盖国产GPU出货量数据 具体数值未披露但显示行业关注度提升[1] - 国内外GPU芯片参数对比研究已完成 技术差距量化分析材料可通过云盘获取[1] - GB200硬件架构解析包含光模块与铜缆应用方案 反映新一代GPU互联技术趋势[1] 行业研究资源 - 直播PPT及中芯国际财务模型等核心资料已上传至云盘 链接包含国产替代方案等实战数据[2][3] - 外资投行科技股研报持续更新 涵盖亚马逊/Meta/谷歌等巨头财报深度解析[3][7] - 国产网卡替代方案已启动商业对接 ConnectX卡缺货背景下提供备选渠道[4] 研究规划 - 用户调研需求涉及特定公司分析/国产显卡应用/线缆出货量等 后续将纳入研究计划并输出结果[3] - 行业信息更新机制已建立 每日同步外资投行数据及精选报告[7]
一文搞懂数据中心的线缆AOC、DAC、ACC、AEC
傅里叶的猫· 2025-08-10 22:34
数据中心线缆技术概述 - 有源光缆AOC是一种电缆技术,接受与传统铜缆相同的电气输入,但在连接器之间使用光纤,通过电气到光学的转换提高速度和传输距离性能[2] - AOC组件由4个功能部分组成:高密度QSFP+连接器、4通道全双工有源光缆收发器、MPO光连接器和带状光缆[4][5][6] - AOC分为多种速率类型:10G SFP AOC、25G SFP28 AOC、40G QSFP+ AOC、100G QSFP28 AOC、200G QSFP56 AOC等[8] - QSFP28支持4×25Gbps通道,总带宽100Gbps,采用PAM4调制可达200Gbps;QSFP56支持4×50Gbps通道,实现200Gbps,部分可达400Gbps[9] AOC的优势与劣势 - 优势:传输距离更长、带宽更高;传输安全可靠;电磁干扰影响小;误码率低(10⁻¹⁵);体积更小、重量更轻[11] - 劣势:制造成本显著高于传统铜缆;灵活性受限,光纤与光模块永久固定连接;内部器件多导致功耗更高[12][13] 铜缆技术分类 - 直连电缆DAC分为无源和有源两类,无源DAC不含信号调理功能,成本更低[17] - DAC电缆配置包括:10G SFP+ DAC、25G SFP28 DAC、40G QSFP+ DAC、100G QSFP28 DAC等[18] 无源铜缆特点 - 优点:成本低、功耗低、延时低、结构简单可靠性高[20] - 缺点:传输距离有限(7米内);线缆较粗柔韧性差;带宽受限;抗干扰能力有限[21][22][24] 有源铜缆技术 - ACC内部包含Redriver,具有信号放大器和均衡器等有源组件,能减少信号衰减[27][29] - ACC传输距离可达10-15米,支持10Gbps到100Gbps甚至更高,保持低延迟[29] - AEC将ACC的Redriver换成Retimer,可集成重定时器、DDM诊断等,适用更高速率、长距离场景[33] GB200中的线缆应用 - NVL72的scale up互联中使用了5184根铜缆,每块GPU需要72个差分对,每根NVLink线缆包含1个差分对[36] - Backend Networking中光学连接用于GPU-GPU跨机架通信的长距离连接,Frontend Networking多数客户使用铜缆[38]