Mamba架构 - 财报，业绩电话会，研报，新闻

Mamba架构

搜索文档

36氪· 2025-08-19 10:33

产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构在数学代码推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别支持百万级token上下文[10][15] - 模型训练包含三个阶段首先在20万亿token数据集上预训练120亿参数基础模型再结合SFT DPO GRPO RLHF等多阶段对齐方法最后通过Minitron策略进行结构化剪枝与知识蒸馏将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型：对齐并剪枝的9B推理模型经过剪枝的9B基础模型以及未剪枝的12B基础模型均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集（1330亿token） Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集展示高质量问答数据数学抽取内容代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息擅长长上下文建模但记忆复制能力不足而Transformer存在O(n²)计算瓶颈混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]

全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案

理想TOP2· 2025-08-18 20:43

端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈，主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息，标准自注意力机制缺乏空间感知能力，导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架，通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示，保留高度变化、强度模式及局部表面几何信息，相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分：门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式（光栅扫描+Z字扫描），实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9，较最佳基线DiffusionDrive提升0.8分，其中可行驶区域符合率(DAC)达97.3(提升1.1分)，自车推进率(EP)达83.3分[29][30] - 消融实验显示：8维柱状表示使PDMS从88.10提升至88.61，完整14维表示进一步升至88.85，证明几何信息保留的关键作用[33][34] - 融合架构对比中，HCA+BEV-SSM组合达到88.69 PDMS分，显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统，BEV表示成为重要里程碑，TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法：早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层)，当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向，有望替代计算量呈平方增长的Transformer架构[3][11]