Workflow
FlashMoBA
icon
搜索文档
MIT天才博士刚毕业,就被前OpenAI CTO抢走,年薪或300万起步
36氪· 2026-01-09 16:12
MIT天才博士,清华学霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型预训练。 MIT天才博士一毕业,火速加盟OpenAI前CTO初创! 最近,肖光烜(Guangxuan Xiao)在社交媒体官宣,刚刚完成了MIT博士学位。 下一步,他将加入Thinking Machines,专注于大模型预训练的工作。 评论区下方,英伟达科学家、xAI研究员、UCSD等一众大佬,为他本人送上了祝贺。 | Zhijian Liu � @zhijianliu_ · Jan 7 | | | | | --- | --- | --- | --- | | Huge congrats, @Guangxuan_Xiao! | | | | | 非常恭喜你,@Guangxuan_Xiao ! | | | | | 5 C3 | | Ilil 1.1K | L | | Jiaxin Wen @ @jiaxinwen22 · Jan 7 | | | | | congrats! | | | | | 茶喜! | | | | | U | C3 | Ill 1.1K | T | | Wei Ping @ @ weiping · Ja ...
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
机器之心· 2025-11-18 13:08
文章核心观点 - 月之暗面提出的MoBA注意力机制是一种创新方法,通过稀疏关注键值块来降低长上下文处理的计算成本 [2][3] - 针对MoBA理论优势与硬件实现效率低下的矛盾,研究提出了FlashMoBA这一硬件友好的优化内核,使小块配置下的MoBA变得实用高效 [7][12] - 优化后的MoBA在性能上可与密集注意力基线相匹敌,对于小块场景,FlashMoBA相比FlashAttention-2可实现最高14.7倍加速 [8][43] 技术原理与挑战 - MoBA遵循“更少结构”原则,让模型自主决定关注位置,其性能关键取决于路由器能否准确区分相关块与无关块 [2][4] - 理论分析指出两条改进路径:采用更小块大小和在Key上应用短卷积,以提升路由准确性 [5] - 小块尺寸在理论上更优,但在现有GPU实现中会导致内存访问碎片化和低并行度,速度甚至慢于稠密注意力 [6][11] FlashMoBA内核设计优化 - 采用三个融合内核以最小化HBM往返次数,并使计算与GPU架构对齐 [16] - 使用Flash TopK替换原始Top-k选择过程,这是一个高度优化的三阶段流水线,无需将完整分数矩阵显式写入HBM [18][19] - 前向传播采用“收集并致密化”策略,通过两级分块机制处理不规则稀疏性,利用高效稠密GEMM分摊不规则内存访问成本 [22][26] - 反向传播利用内存高效设计,重计算注意力分数,在序列长度上保持线性复杂度,是关键的性能改进 [27][28] 实验性能结果 - 块大小对模型质量有显著影响:将块大小从512缩小到128,使340M模型的困惑度从20.9降至19.7,RULER准确率从38.8%提升到56.0% [30] - Key Convolution带来性能提升:kconv3将340M模型语言建模准确率从45.1%提升到45.6%;kconv5在64K长度检索任务中达到100%检索率 [36] - 在多个基准测试和规模下,MoBA表现与密集注意力机制相当甚至更胜一筹,1B参数模型在部分任务上达到15.1分 [39][40] - 效率方面,在N=64K且B=128配置下,FlashMoBA比原始MoBA快7.4倍,内存占用减少6.1倍,并能扩展到512K序列长度 [42]