Workflow
Vision Transformer(ViT)
icon
搜索文档
内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行
36氪· 2026-02-11 17:17
核心技术创新:D-CHAG方法 - 美国橡树岭国家实验室的研究人员提出了一种面向基础模型的分布式跨通道分层聚合方法(D-CHAG),该方法对token化过程进行分布式处理,并采用分层策略进行通道聚合,使极大规模模型能够在多通道数据集上运行 [1][2] - D-CHAG方法融合了分布式token化与层级跨通道聚合两种策略,每个张量并行(TP)rank仅对输入通道子集进行token化,并在本地执行部分通道聚合,最终通过一次AllGather操作和跨通道注意力完成最终聚合,从而在减少内存占用的同时控制通信开销 [7][8][9][11] - 该方法提供了两种实现策略:D-CHAG-L使用线性层进行层级聚合,内存占用低;D-CHAG-C使用交叉注意力层,在超大模型或极高通道数时性能提升显著 [12] 性能与效率提升 - 在Frontier超级计算机上,将D-CHAG与张量并行和模型分片相结合后,最多可将内存占用降低75%,并在最多1,024块AMD GPU上实现持续吞吐量提升超过2倍 [2] - 与仅使用张量并行(TP)相比,D-CHAG可实现最高70%的内存占用降低 [4] - 对于7B参数模型,使用D-CHAG-L可获得30%至70%的性能提升,使用D-CHAG-C可获得10%至60%的提升;对于15B参数模型,性能提升超过20%至50%;对于26B参数模型,性能提升在10%至30%之间 [25] - 仅使用TP无法训练26B参数、256通道图像,但使用D-CHAG方法可以训练26B参数、512通道的模型,仅使用不到80%的可用内存,表明该方法能够支持高通道数数据集上更大模型的训练 [25] 应用验证与数据集 - 研究使用了两类典型的多通道数据集验证D-CHAG:包含494张杨树高光谱图像的数据集(每张图像500个光谱通道)用于自监督掩码预测 [5];以及ERA5高分辨率再分析数据集(共80个输入通道)用于气象变量预测 [6] - 在高光谱植物图像的自监督掩码预测任务中,D-CHAG方法(在两块GPU上运行)的训练损失表现与单GPU基线高度一致 [17][19] - 在气象预测任务中,D-CHAG方法相较于单GPU训练,在7、14和30天预测任务上的各项指标(MSE, RMSE, wACC)偏差极小,例如Z500通道的30天MSE变化约为0.00%,T850通道的30天MSE变化为+3.22% [20] 行业背景与趋势:视觉Transformer(ViT) - Vision Transformer(ViT)将图像视为一系列patch token序列,用自注意力机制替代卷积神经网络的局部感受野建模,被视为视觉基础模型的关键技术基石 [26] - 与传统CNN相比,ViT对科学数据尤其具有优势:适合高维多通道数据、可处理非欧几里得空间结构、适用于跨通道建模,这正是D-CHAG论文关注的核心问题 [27] - 从产业视角看,Vision Transformer标志着视觉AI从感知模型走向通用视觉基础模型的关键拐点,其统一的Transformer架构为跨模态融合、规模化扩展与系统级优化提供了通用底座 [29]