UCIe
搜索文档
从芯粒到机柜:聊聊大模型浪潮下的开放互连
半导体行业观察· 2025-12-02 09:37
文章核心观点 - AI大模型发展重心从预训练扩展转向推理时扩展,对基础设施的低延迟和高吞吐提出新要求[8] - 面对NVIDIA私有互连技术的垄断,行业需要拥抱开放互连标准以实现供应链健壮性和技术优化空间[9][10] - 开放互连技术体系UCIe/CXL/UAL/UEC覆盖从芯粒互连到Scale-out网络的全链条,是构建AI基础设施核心竞争力的关键[10] - 阿里云作为中国大陆唯一代表,深度参与UCIe、CXL、UAL等核心标准制定,在开放互连生态中占据有利地位[2][4] 开放互连标准发展背景 - 2019年3月CXL联盟成立,旨在解决异构XPU编程和内存扩展挑战[4] - 2022年3月UCIe联盟成立,致力于建立开放的Die-to-Die互连标准[4] - 2023年7月UEC联盟成立,目标为AI和HPC重建高效开放的以太网[4] - 2024年10月UAL联盟成立,应对模型尺寸和推理上下文增长对Scale-up网络的需求[4] Scaling Law三个阶段 - 预训练扩展:通过增加模型参数、训练数据量和计算资源提升基础模型精度[5] - 后训练扩展:通过微调、RLHF和蒸馏等手段使模型输出更专业和符合人类习惯[5] - 推理时扩展:通过生成更多辅助推理的token提升输出质量,如CoT Prompting和Sampling and Voting[5][6] - 当前扩展重心已转移到推理时扩展,对延时指标和吞吐指标有刚性需求[8] UCIe技术分析 - 基于芯粒的设计通过提升良率、制程节点优化、芯粒复用和市场化四个层面解决成本问题[11][15] - 芯粒设计突破光罩尺寸限制,NVIDIA Blackwell采用2 Die合封,Rubin Ultra采用4 Die合封[14][17] - UCIe物理层目标延时<2ns,先进封装单模组带宽达256GB/s[18][19][23] - UCIe-3D采用混合键合技术,bump pitch仅9μm,远低于2D/2.5D封装的25-55μm[25] - UCIe支持光电共封,为AI集群互连提供低成本、高灵活度解决方案[26][27] CXL技术特性与应用 - CXL 3.2支持64GT/s链路速率,256字节Flit格式,多级交换和全局集成内存等特性[33] - 内存扩展和池化为LLM推理系统提供分层缓存体系,缓解KV Cache存储压力[34][40] - 全局集成内存实现Host间一致性内存访问,为AI基础设施提供内存共享能力[34][39] - CXL在RAG向量数据库中可通过内存池化创建常驻内存数据库,或利用存内计算提升查询效率[40] UAL协议架构 - UAL采用四层协议栈,物理层复用IEEE802.3dj以太网PHY,实现200Gb/s传输速率[43][45] - 支持内存语义操作,避免RDMA编程模式的Doorbell/Interrupt延时开销[44] - 通过Credit-based流控和链路层重传实现无损传输,减少长尾延时[54] - 支持最多1024个节点的超节点Scale-up网络,采用PGAS编程模型实现全局内存空间[50] UEC协议创新 - 短时连接动态创建Packet Delivery Context,解决RDMA网络规模扩展性问题[59] - 多路径和包喷洒技术使同一流中的数据包可走不同路径,提升带宽利用率[62] - 支持乱序包交付与顺序消息交付,提供四种传输模式应对不同场景需求[63] - 拥塞控制综合ECN标识和RTT测量,结合接收端信用控制实现高效管理[64] - 安全子层通过安全域共享密钥和重放攻击防护机制保障数据传输安全[67] Scale-up域边界分析 - 模型参数增长放缓,但KV Cache内存需求持续增加,对内存容量提出更高要求[70][74] - NVIDIA Rubin Ultra显存容量预计达约1TB,算力达100 PFLOPS@FP4[75] - 华为昇腾960算力为4 PFLOPS@FP4,显存288GB,与NVIDIA存在显著差距[75] - 中美AI集群形态差异:美式集群Scale-up域锚定单机柜,中式集群需多机柜扩展[76] - Scale-up集群规模将经历扩大再收缩过程,最终回归单机柜超节点形态[76] CXL未来发展前景 - CXL 3.1引入GIM概念,实现Host间一致性内存访问,功能上接近UAL[77] - PCIe Gen8速率将达256GT/s,但需等到2028年才可能集成到GPU[78] - CXL提供另一种集群组织形态:GPU通过CXL Switch连接CPU,实现统一内存空间[78] - 非NVIDIA GPU集成CXL可实现与Host的UMA,提升带宽利用率[78] - CXL生态系统成熟后,可能成为AI基础设施的重要技术路径[78]
每周股票复盘:和顺石油(603353)拟收购奎芯科技控股权
搜狐财经· 2025-11-23 02:36
股价表现与交易信息 - 截至2025年11月21日收盘,公司股价报收于30.59元,较上周的28.03元上涨9.13% [1] - 11月20日盘中股价触及近一年最高点35.88元,11月21日盘中最低价为30.53元,本周共计2次涨停收盘 [1] - 公司当前最新总市值为52.59亿元,在炼化及贸易板块市值排名17/30,在两市A股市值排名3098/5167 [1] - 因连续三个交易日内收盘价格涨幅偏离值累计达到20%,公司于2025年11月17日登上龙虎榜,为近5个交易日内首次上榜 [2] 股权变动与公司治理 - 实际控制人晏喜明、赵尊铭及其一致行动人赵雄拟通过协议转让方式向陈琬宜合计转让公司6.0000%股份,共计10,314,360股,转让价格为22.932元/股,总金额236,528,903.52元 [3] - 本次权益变动后,实际控制人及其一致行动人持股比例由66.5817%降至60.5817%,不导致公司控制权变更,受让方陈琬宜将成为持股5%以上股东 [3] - 公司将于2025年12月5日召开第三次临时股东会,审议变更经营范围、修订《公司章程》及工商变更登记事项 [8] - 公司拟取消“烟草制品零售”经营范围,修订后的《公司章程》明确公司注册资本为17,190.6万元,经营范围包括成品油批发零售、新能源汽车销售、光伏发电等 [9] 重大资产收购事项 - 公司拟以现金方式收购上海奎芯集成电路设计有限公司不低于34%股权,并通过表决权委托合计控制51%表决权,取得其控制权 [4][8] - 标的公司100%股权价值不高于15.88亿元(增资后估值),预计最终交易金额不高于5.4亿元 [4][8] - 该交易构成关联交易,因标的公司实控人陈琬宜将受让公司6%股份成为关联人,交易尚需签署正式协议并履行后续程序 [8] - 标的公司承诺2025–2028年每年收入分别不低于3亿、4.5亿、6亿、7.5亿元,且归母净利润均为正 [8] 标的公司业务与技术 - 奎芯科技是国内少数具备完整高速接口IP产品矩阵的企业,核心产品为互联接口IP,覆盖UCIe、ONFI、HBM、LPDDR、PCIe等 [4][7] - 核心IP具备面积小、功耗低、多通道灵活设计优势,其中UCIe实现32Gbps速率(行业最高),HBM3支持6.4Gb/s速率,总带宽达819GB [7] - 公司商业模式为“IP授权费+权利金”,2024年IP+Chiplet营收占比超50%,Chiplet潜在市场规模约为IP市场的10倍 [5][7] - 研发团队约占员工总数70%,下游客户包括全球及国内一线固态硬盘存储原厂、AI芯片独角兽企业、汽车电子及消费电子等领域客户,前十大客户对公司营收和利润贡献显著 [4][5][7] 公司转型背景与战略 - 公司主营业务为加油站零售连锁,现金流充足,但受新能源汽车影响,归母净利润近年有所下滑,因此寻求向半导体行业转型升级 [4] - 收购奎芯科技契合公司转型升级方向,半导体IP行业前景广阔,公司目标是成为国产互联IP与Chiplet领域的龙头企业 [4][7]
Chiplet生态系统正在慢慢兴起
半导体芯闻· 2025-07-23 17:59
Chiplet设计的核心观点 - Chiplet设计正从定制化向标准化开放市场过渡,但需先建立完整的生态系统[2] - 细分应用专用Chiplet至关重要,可让客户专注于核心优势领域,其他部分交由专业厂商处理[4] - 行业需要为工程师提供更多工具和能力,帮助他们实现Chiplet集成[4] - 40%业内人士已认同某些接口标准,但热性能数据交换等关键领域仍缺乏统一标准[9] Chiplet的优势 - 可带来三个关键价值:成本效率、定制灵活性和配置可重用性[6] - 使公司能专注于特定领域成为专家,显著提升生产力和产品竞争力[4] - 子系统级解决方案可帮助客户更快将产品推向市场[7] - 物理AI等新兴领域已开始实际应用Chiplet技术[13] 技术挑战 - 热性能数据交换缺乏统一标准,SerDes端口等热点位置信息难以共享[9] - 封装领域存在"狂野西部"现象,各代工厂生态系统封闭且设计规则不统一[9] - HBM作为首个Chiplet并未对所有人开放,存在供应链问题[10] - 2.5D集成带来热、电磁干扰、应力等新问题,需要建立相应模型[8] - 互连结构分析计算成本高,某些情况下需一周时间完成建模[14] 生态系统发展 - 需用"芯片生态系统"替代"芯片市场"概念,涵盖工具、设计基础设施等全方位支持[5] - EDA标准和能力显著进步,多芯片组测试协调能力提升明显[5] - Cadence通过物理AI原型验证了Chiplet生态系统框架[12] - Arm CSA、imec和UCIe等组织正在解决Chiplet不同层面的问题[12] - EDA行业需改进互连级分析,提高性能预测效率[14]
D2D,怎么连?
半导体行业观察· 2025-05-18 11:33
UCIe 2.0标准的核心观点 - UCIe 2.0版本中许多新功能是可选的,这一关键信息在公众讨论中被忽视 [1][2] - 规范允许根据具体需求定制变体,适用于汽车、高性能计算、AI、军事/航空航天等多个领域 [2] - 与PCIe、CXL和NVMe等标准类似,UCIe具有灵活性,无需为不需要的功能使用芯片 [2] UCIe与专有设计的竞争格局 - 当前先进封装项目主要由资金雄厚公司主导,采用专有设计实现内部芯片互操作 [4] - 专有设计占据主导地位,因互操作性并非当前主要问题 [2] - 长期愿景是建立类似软设计IP的通用芯片市场,但需解决即插即用标准问题 [4][6] UCIe 2.0的可选管理功能 - 管理功能包括发现、初始化、固件下载、电源/热管理等9大类,均为可选 [7] - 90%的当前系统实现不关心这些功能,仅10%为未来兼容性考虑 [6] - 最低必需功能支持盲芯片启动,如通道反转等强制性元素也可在定制实现中去除 [9] UCIe与BoW的技术对比 - BoW允许使用收发器,可能减少50%线路数量;UCIe强制每条通道两条线路 [16][17] - UCIe严格规定凸块布局和PHY尺寸,BoW则提供更大设计自由度 [17] - BoW被视为更轻量的架构规范,而UCIe提供更完整的标准化方案 [18] 行业生态发展现状 - 英特尔等公司会在UCIe基础上修改数据链路层以适应特定用例 [15] - 专有解决方案(如NVIDIA的NVLink)仍将在高性能领域保持优势 [21] - 新思科技提供三种UCIe接口IP:合规、兼容和定制版本,满足不同需求 [15] 市场接受度与未来趋势 - 行业更倾向于功能选项清晰分层的标准,而非杂乱无章的变体 [15] - UCIe和BoW的竞争呈现良性态势,IP提供商普遍对两者持开放态度 [20] - 标准化进程较慢可能延迟新功能采用,专有方案仍具迭代速度优势 [20]
Chiplet互连之争:UCIe何以胜出?
半导体芯闻· 2025-05-16 18:08
UCIe 2.0标准特性分析 - UCIe 2.0版本因包含大量新增特性被质疑过于重量级,但多数特性为可选实现,设计者可根据需求定制[1][2] - 标准定义了从汽车到高性能计算、AI等多领域适用方案,但IP提供商需应对支持所有特性的挑战[1] - 90%的当前应用采用封闭系统设计,仅10%用户为未来开放生态提前部署可选功能[6] Chiplet市场现状与愿景 - 当前先进封装产品主要由资金雄厚公司内部开发,chiplet多源于分解的SoC模块(如计算核心、缓存)[3] - 长期目标是建立类似软IP市场的通用chiplet市场,实现跨公司硬硅片即插即用[4] - 开放生态需在参数标准化基础上达成共识,UCIe Consortium正制定相关功能以支持未来市场[5][13] UCIe与BoW标准竞争 - BoW被认为更轻量级,允许收发器使用(半双工)和灵活bump布局,单通道仅需1条线路[15][16] - UCIe强制双线路全双工通道,规定bump物理布局以提升兼容性,但牺牲设计自由度[15][16] - 两者理念差异显著:UCIe强调规范统一性,BoW提供类似Arm AMBA总线的架构灵活性[16] 管理功能设计 - UCIe 2.0新增管理特性(如固件下载、错误报告)均为可选,通过主频带或边带接口实现[7][9] - 最小特性集支持盲die启动,强制通道反转等基础功能在定制设计中可省略以降低复杂度[9][10] - 发现功能采用静态枚举而非动态发现,仅需简单寄存器读取确认chiplet配置[11][12] 行业实施动态 - 英特尔等大厂在内部用例中修改UCIe数据链路层以优化性能,显示标准实际应用中的灵活性[14] - 英伟达等公司仍倾向专有接口(如NVLink),因标准化进程慢于专有方案迭代速度[17][18] - IP提供商推出分级UCIe方案(Compliant/Compatible/Custom)以适应不同功耗与性能需求[13]
Chiplet,刚刚开始!
半导体行业观察· 2025-03-29 09:44
芯片资源管理挑战 - 芯片资源管理不善增加了功率、性能和面积权衡的复杂性,可能导致性能瓶颈、开发成本上升和功耗管理困难[1] - 跨芯片通信的固有延迟比单个芯片内更长,随着芯片数量增加,相互通信的功耗变得更难管理[1] - 系统和处理器供应商通过增加计算密度提高性能,通过提高产量降低成本,但使用第三方芯片优化系统更为困难[1] Chiplet设计方法论 - 许多公司首次尝试chiplet设计时错误地从芯片内部开始工作,而非从系统角度出发,导致在互操作性和通用性方面陷入困境[2] - 正确方法应从系统总线和NoC开始,优化NoC和系统总线及协议(如CHI或AXI),针对具体应用和目标市场调整功率、性能和面积[2] - 所有芯片组的系统总线必须相同,理想情况下I/O互连是通用的,这给IP供应商带来了新的挑战[2] Chiplet市场分类 - Chiplet市场分为专属市场(单一供应商)、本地生态系统(5-7家公司合作)和开放市场(多供应商互连)[3] - 目前95%-99%的chiplet市场属于专属市场,大型制造商追求超越标准的关键性能指标(KPM)[3] - 本地生态系统的例子包括日本和欧洲汽车供应商群体,以及RISC-V公司联盟[3] 芯片分区策略 - 行业正从专属生态系统向本地生态系统过渡,芯片开发人员寻求最佳构建方法[6] - 简化方法包括按技术划分芯片,将模拟部分放在更高工艺节点,处理低工艺节点的能耗问题[6] - 功能分区可构建更大系统而不必将所有组件放在同一SoC上,例如汽车ADAS解决方案中的功能分组[6] Chiplet互操作性挑战 - 实现可互操作的chiplet市场比许多人意识到的更困难,需要良好的验证IP和一致认可的标准[9] - UCIe等标准仅提供最低级别的连接,无法确保芯片间的相互理解,需要更高级别的通信协议[9][10] - 行业初期过于关注物理层接口定义,而忽视了资源管理层面的问题[11][12] 行业发展趋势 - 行业正探索如何在封装中即插即用多供应商chiplet,面临架构设计和资源管理的挑战[12] - 美国政府通过NAPMP计划推动完全自动化的1000个芯片封装设计流程,涉及复杂的启动过程和信任链定义[12] - 代工厂提供的微米间距混合键合技术为3D堆叠chiplet创造了新机会[12]
数据中心互联革命:UALink & 超级以太网正加速崛起
半导体芯闻· 2025-03-18 18:32
文章核心观点 AI和HPC数据中心计算节点需超越芯片或封装获取更多资源,但目前无开放扩展协议,新协议UALink和超级以太网旨在解决纵向和横向扩展通信缺陷,预计2026年底开始出现在数据中心 [1][26] 多种通信任务 - 计算节点容量有限,需依赖其他节点分配问题,通信协议分三类,最低级是芯片到芯片互连,中间通信级别可扩展,UALink在此发挥作用 [3] - UALink可连接主GPU单元,增加带宽、减少延迟,能与任何加速器配合,抽象加速器区别,优化xPU到xPU内存通信 [4] 超越机架 - 机架外资源需通过以太网横向扩展通信,与纵向扩展覆盖范围不同 [5] - 超级以太网建立在传统以太网之上,解决横向扩展问题,加速数据中心以太网 [6] 扩展:一片绿地 - 现有扩展技术由专有解决方案组成,效率低,UALink联盟成立,目标是促进AI加速器操作,由事务层、数据链路层和物理层组成 [8] - UALink针对AI和HPC工作负载优化,不具备PCIe所有功能,但满足特定需求,初始版本为224Gbps和半速版,后续推-128版本,预计不挑战PCIe或CXL [9] - UALink 1.0规范预计下个季度内推出并免费下载 [10] 横向扩展:基于以太网构建 - 以太网广泛应用,但尾部延迟损害性能,通信延迟不固定、不可预测,对AI和HPC工作负载问题严重 [12][13] - 超级以太网联盟针对通信提供强制和可选功能,可通过网络接口卡或结构端点连接,CPU和GPU均可参与 [14][15] 为以太网添加层 - 超级以太网在标准以太网基础上添加第3层和第4层,传输层管理事务语义,减少整体系统延迟,第3层仅用IP未更改 [17] - 传输层在端点实现,源端点决策,接收端点反馈,出现问题数据包发送NACK及诊断信息,源重新选择路径 [17][18] 新功能有助于减少尾部延迟 - 超级以太网通过无序交付、链路级重试、流量控制和数据包喷射减少延迟,部分功能可选,早期网络需交换机升级才有链路级重试功能 [20][21] - 这些功能提供更快传输选项,减少重试次数,虽可能增加名义延迟,但减少尾部延迟,使系统更快开始 [22] - 超级以太网1.0规范预计4月或5月发布,端点创建快,交换机升级慢,UEC保持对协议控制,与多组织合作避免分叉 [23][24] 结论 - AI是杀手级应用,HPC可搭便车,超级以太网允许选择交易语义,两项协议规范2025年上半年推出,经评估后应用到硅片,2026年底可能出现在数据中心 [26]