MoBA - 财报，业绩电话会，研报，新闻

MoBA

搜索文档

机器之心· 2025-11-18 13:08

文章核心观点 - 月之暗面提出的MoBA注意力机制是一种创新方法，通过稀疏关注键值块来降低长上下文处理的计算成本 [2][3] - 针对MoBA理论优势与硬件实现效率低下的矛盾，研究提出了FlashMoBA这一硬件友好的优化内核，使小块配置下的MoBA变得实用高效 [7][12] - 优化后的MoBA在性能上可与密集注意力基线相匹敌，对于小块场景，FlashMoBA相比FlashAttention-2可实现最高14.7倍加速 [8][43] 技术原理与挑战 - MoBA遵循“更少结构”原则，让模型自主决定关注位置，其性能关键取决于路由器能否准确区分相关块与无关块 [2][4] - 理论分析指出两条改进路径：采用更小块大小和在Key上应用短卷积，以提升路由准确性 [5] - 小块尺寸在理论上更优，但在现有GPU实现中会导致内存访问碎片化和低并行度，速度甚至慢于稠密注意力 [6][11] FlashMoBA内核设计优化 - 采用三个融合内核以最小化HBM往返次数，并使计算与GPU架构对齐 [16] - 使用Flash TopK替换原始Top-k选择过程，这是一个高度优化的三阶段流水线，无需将完整分数矩阵显式写入HBM [18][19] - 前向传播采用“收集并致密化”策略，通过两级分块机制处理不规则稀疏性，利用高效稠密GEMM分摊不规则内存访问成本 [22][26] - 反向传播利用内存高效设计，重计算注意力分数，在序列长度上保持线性复杂度，是关键的性能改进 [27][28] 实验性能结果 - 块大小对模型质量有显著影响：将块大小从512缩小到128，使340M模型的困惑度从20.9降至19.7，RULER准确率从38.8%提升到56.0% [30] - Key Convolution带来性能提升：kconv3将340M模型语言建模准确率从45.1%提升到45.6%；kconv5在64K长度检索任务中达到100%检索率 [36] - 在多个基准测试和规模下，MoBA表现与密集注意力机制相当甚至更胜一筹，1B参数模型在部分任务上达到15.1分 [39][40] - 效率方面，在N=64K且B=128配置下，FlashMoBA比原始MoBA快7.4倍，内存占用减少6.1倍，并能扩展到512K序列长度 [42]

大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起

晚点LatePost· 2025-03-02 14:10

大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构，聚焦改进大模型核心机制"注意力机制"，旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈：显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向，通过仅保留关键连接提升效率，数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计，在Block级别进行稀疏计算，利用Triton框架优化GPU并行效率，实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性，通过混合分块注意力保留远距离关键信息，效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制，结合内容相关性动态选择关注区域，平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中，损失曲线与稠密注意力趋同，推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中，GSM8K数学推理得分达0.7278，优于稠密模型的0.7142[49] - 长文本专项测试显示，32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度，1小时视频相当于100万token，需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键，DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口，需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长，B200显存仅为A100的1.2倍，迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级，算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制，探索存储复杂度新平衡点[53]

Artificial Intelligence

Artificial Intelligence

NSA

月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

晚点LatePost· 2025-02-20 22:21

注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA，均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题，成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向：稀疏注意力机制（如NSA/MoBA/InfLLM）和线性注意力机制（如MiniMax-01），前者侧重稳健优化，后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月，初始目标为支持16K长度预训练，后升级至128K需求，经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括：采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标，已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新：MiniMax-01采用线性注意力，面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异：前者保留复杂依赖关系捕捉能力，后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制，相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布，包含完整工程实现与技术论文，实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳（IO优化达理论最大值），但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升，但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚，整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代，三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性（支持全注意力模式对照）与工程实用性（单机/分布式兼容）的双重优势[16][20]

Artificial Intelligence

Artificial Intelligence

MoBA