FlashMoBA - 财报，业绩电话会，研报，新闻

FlashMoBA

搜索文档

36氪· 2026-01-09 16:12

公司核心人事动态 - MIT博士肖光烜正式加盟由OpenAI前CTO Mira Murati创立的初创公司Thinking Machines，专注于大模型预训练工作[1] - 肖光烜拥有清华大学计算机科学与金融学双学位，并在MIT攻读博士学位，师从韩松教授，研究方向为深度学习的高效算法与系统，特别是大规模基础模型[6][8] - 其加盟获得了包括英伟达科学家、xAI研究员在内的行业顶尖人士的祝贺[3] 公司人才战略与薪酬竞争力 - Thinking Machines为吸引顶尖技术人才，提供了极具竞争力的薪酬，据2025年第一季度数据，其为四名技术员工提供的平均年薪高达462,500美元[25] - 具体而言，公司向两名技术员工支付了45万美元基础年薪，另一名员工年薪达50万美元，一名联合创始人/机器学习专家年薪也为45万美元[22][23] - 公司薪酬水平显著高于部分成熟竞争对手，例如OpenAI 29名技术员工的平均年薪为292,115美元，Anthropic 14名技术员工的平均年薪为387,500美元[25][27] 行业技术前沿与研发方向 - 肖光烜的博士论文《Efficient Algorithms and Systems for Large Language Models》系统性地解决了当前大模型面临的显存消耗大、推理速度慢、长上下文处理困难等核心工程挑战[18] - 其提出的SmoothQuant技术，通过数学变换将量化难点从激活值转移至权重，实现了在十亿级模型上W8A8无损量化，无需重新训练即可减少显存占用并加速推理[19] - 针对长上下文处理，其发现的“注意力汇点”现象及StreamingLLM框架，使模型能以常数内存进行流式推理，将上下文长度从数千token扩展至百万级，并已推广至多模态视频理解[19] - 为解决长上下文下的不同性能瓶颈，团队提出了DuoAttention（通过混合全局检索与局部关注来减少KVCache显存占用）和XAttention（利用反对角评分加速预填充阶段）等互补方案[19] - 论文进一步通过FlashMoBA定制化CUDA内核，使更小的注意力块架构在实践中可行，实现了最高可达9倍的速度提升，为下一代高效AGI系统奠定了基础[19][20] 个人背景与行业经验 - 肖光烜在MIT攻读博士期间，曾在Meta实习，研究方向为流式语言模型的高效注意力机制，相关成果已发表[10] - 他亦在英伟达实习，参与为长上下文大语言模型推理加速的研究，与团队共同提出了DuoAttention方法[12] - 其研究项目还包括XAttention、StreamingVLM、FlashMoBA等，均聚焦于提升大模型的效率与性能[15]

大模型预训练

高效算法与系统

大规模基础模型

Artificial Intelligence

Artificial Intelligence

DuoAttention

XAttention

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

机器之心· 2025-11-18 13:08

文章核心观点 - 月之暗面提出的MoBA注意力机制是一种创新方法，通过稀疏关注键值块来降低长上下文处理的计算成本 [2][3] - 针对MoBA理论优势与硬件实现效率低下的矛盾，研究提出了FlashMoBA这一硬件友好的优化内核，使小块配置下的MoBA变得实用高效 [7][12] - 优化后的MoBA在性能上可与密集注意力基线相匹敌，对于小块场景，FlashMoBA相比FlashAttention-2可实现最高14.7倍加速 [8][43] 技术原理与挑战 - MoBA遵循“更少结构”原则，让模型自主决定关注位置，其性能关键取决于路由器能否准确区分相关块与无关块 [2][4] - 理论分析指出两条改进路径：采用更小块大小和在Key上应用短卷积，以提升路由准确性 [5] - 小块尺寸在理论上更优，但在现有GPU实现中会导致内存访问碎片化和低并行度，速度甚至慢于稠密注意力 [6][11] FlashMoBA内核设计优化 - 采用三个融合内核以最小化HBM往返次数，并使计算与GPU架构对齐 [16] - 使用Flash TopK替换原始Top-k选择过程，这是一个高度优化的三阶段流水线，无需将完整分数矩阵显式写入HBM [18][19] - 前向传播采用“收集并致密化”策略，通过两级分块机制处理不规则稀疏性，利用高效稠密GEMM分摊不规则内存访问成本 [22][26] - 反向传播利用内存高效设计，重计算注意力分数，在序列长度上保持线性复杂度，是关键的性能改进 [27][28] 实验性能结果 - 块大小对模型质量有显著影响：将块大小从512缩小到128，使340M模型的困惑度从20.9降至19.7，RULER准确率从38.8%提升到56.0% [30] - Key Convolution带来性能提升：kconv3将340M模型语言建模准确率从45.1%提升到45.6%；kconv5在64K长度检索任务中达到100%检索率 [36] - 在多个基准测试和规模下，MoBA表现与密集注意力机制相当甚至更胜一筹，1B参数模型在部分任务上达到15.1分 [39][40] - 效率方面，在N=64K且B=128配置下，FlashMoBA比原始MoBA快7.4倍，内存占用减少6.1倍，并能扩展到512K序列长度 [42]