Workflow
Mamba - Transformer混合架构
icon
搜索文档
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 08:03
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 【导读】 英伟达发布全新架构9B模型,以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍,对标Qwen3-8B并在数学、代码、推理与长 上下文任务中表现持平或更优。 万万没想到,现在还紧跟我们的开源模型竟然是英伟达。 刚刚,英伟达发布了一个只有 9B大小 的 NVIDIA Nemotron Nano 2模型 。 对标的是业界标杆,千问的Qwen3-8B,但这个模型是一个完全不同的混合架构。 用英伟达的说法,这是一款革命性的 Mamba-Transformer 混合架构 语言模型。 在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率,并且吞吐量 最高可达其 6倍 。 它的诞生只有一个目标: 在复杂的推理任务中, 实现无与伦比的 吞吐量 ,同时保持同级别模型中顶尖的精度! 在官网简单测试一下,一些 经典问题 ,都能答对。 英伟达还做了3个小工具,可以实时查天气、 ...