MagiAttention v1.1.0 核心发布 - Sand.ai 正式发布 MagiAttention v1.1.0,旨在重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限 [1] Blackwell 新架构适配 - 研发团队引入基于 Flash-Attention 4 的 FFA_FA4 后端,完成了对下一代 Blackwell 架构的初步适配,以延续 Flex-Flash-Attention 的灵活性 [3][4] 原生 Group Collective 通信内核 - 受 DeepEP 启发,构建了原生 Group Collective 通信内核,旨在彻底重塑分布式 Attention 在节点内外的数据交换范式,以突破跨机通信效率的瓶颈 [5] 系统级协同优化 - 卓越性能源于系统级的全栈协同调度和全场景通用的启发式算法,包括负载均衡与多阶段重叠 [5][6] 灵活掩码与稀疏生成优化 - 引入 HSTU Function 表达,在性能损耗小于 5% 的前提下,实现了对任意掩码的无缝兼容 [6] - 开发高效分块掩码生成算子,降低了 FlexAttention 实例化完整掩码的性能开销和显存风险 [6] 指令与显存优化 - 利用 Register-to-Predicate 技巧,将复杂的边界检查映射为单条硬件指令,大幅降低了指令周期 [6] - 针对超长序列,对掩码元数据进行 CSR 压缩,并对内核启动进行 FFI 加速,以优化显存与延迟 [6] 通信与算子融合优化 - 将数据重排直接融合进通信算子,显著降低了访存和额外拷贝开销 [6] - 采用 “NVLink 替代冗余 RDMA” 传输策略,实现节点间单次物理交换与节点内高效转发和规约,使跨机通信量降低数倍,性能远超传统 AlltoAll-v 方案 [6] 负载均衡与调度优化 - Dispatch Solver 基于最小堆贪心算法,实现序列的细粒度分配,保证任意掩码下设备的计算负载均衡 [14] - Adaptive Multi-Stage Overlap 自适应调整流水线阶段,通过最小化调度开销实现极致重叠,为超长序列训练提供线性扩展保障 [14] 实测表现与应用 - MagiAttention v1.1.0 已在 Magi-1 等大规模视频生成模型训练中得到实证,并在各大厂中被应用于多模态大模型训练 [8] - Sand.ai 提供了细致的 Benchmark 结果,以验证其在真实长文训练中的表现,包括算子层面在支持灵活掩码下维持 SOTA 性能,以及分布式层面重塑超长序列的扩展性曲线 [8][11] 公司愿景与未来展望 - Sand.ai 认为,只有将底层算力压榨到极限,才能开启人工智能处理复杂多模态任务的新篇章,而 MagiAttention v1.1.0 是向这一愿景迈进的关键一步 [16] - 公司相信,强大的模型能力必须建立在普惠且极致的技术基石之上 [16]
Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆
机器之心·2026-03-24 11:59