Nvidia Nemotron 3
搜索文档
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
英伟达,宣布收购
半导体行业观察· 2025-12-16 09:22
收购事件概述 - NVIDIA宣布收购开源工作负载管理系统Slurm的领先开发商SchedMD [2] - 收购旨在加强开源软件生态系统并推动面向研究人员、开发人员及企业的AI创新 [2] - 交易条款未披露,NVIDIA除官方博客外拒绝发表更多评论 [6] 收购标的:Slurm/SchedMD - Slurm是一款用于高性能计算和人工智能的开源工作负载管理与作业调度系统 [2] - Slurm最初于2002年推出,SchedMD由其主要开发者于2010年创立 [6] - Slurm被TOP500超级计算机排行榜前10名以及前100名中超过一半的系统所使用 [2] - Slurm支持最新的NVIDIA硬件,是生成式AI所需的关键基础设施,用于管理模型训练和推理 [2] - SchedMD拥有数百家客户,涵盖云服务提供商、制造商、AI公司及研究实验室,涉及自动驾驶、医疗保健、能源、金融、制造和政府等行业 [3][4] NVIDIA的承诺与计划 - NVIDIA将继续开发和分发Slurm,使其保持为开源、厂商中立的软件 [2] - 公司计划继续投资Slurm的开发,确保其保持HPC和AI领域领先开源调度器的地位 [3] - NVIDIA将加速SchedMD对新系统的访问,帮助用户优化其整个NVIDIA加速计算平台上的工作负载,并支持多样化的软硬件生态系统以运行异构集群 [3] - NVIDIA将继续为SchedMD的现有客户提供开源软件支持、培训和开发服务 [3] 战略背景与公司其他动态 - 此次收购是NVIDIA与SchedMD超过十年合作的延续 [3][6] - 收购反映了NVIDIA从收购和发布新模型两方面扩大其在开源AI领域的影响力 [6] - 在同一天,NVIDIA还发布了一系列名为Nemotron 3的新开源AI模型,声称其是构建精准AI代理最高效的开源模型系列,包括Nano、Super和Ultra三种型号 [6][7] - 近期,NVIDIA持续加强其开源和开放AI产品,例如上周发布了专注于自动驾驶研究的开放式推理视觉语言模型Alpamayo-R1,并为其Cosmos世界模型添加了更多工作流程和指南 [7] - 这些举措反映了NVIDIA对物理AI将成为其GPU下一个前沿领域的押注,旨在成为机器人或自动驾驶汽车公司在开发核心技术时的首选供应商 [7]
Nvidia bulks up open source offerings with an acquisition and new open AI models
TechCrunch· 2025-12-16 06:00
英伟达在开源AI领域的战略扩张 - 公司通过收购与发布新模型,在开源AI领域进行双线扩张,旨在巩固其作为生成式AI和物理AI关键基础设施供应商的地位 [1][3][8] 收购SchedMD以强化高性能计算基础设施 - 公司收购了领先的开源工作负载管理系统Slurm的开发商SchedMD,交易条款未披露 [1][2] - Slurm系统专为高性能计算和AI设计,于2002年推出,公司计划将其作为开源、供应商中立的软件继续运营 [1] - 公司与SchedMD已有超过十年的合作历史,认为该技术是生成式AI的关键基础设施,并计划持续投资以加速其在不同系统中的接入 [3] 发布新一代开源AI模型Nemotron 3 - 公司发布了名为Nvidia Nemotron 3的新系列开源AI模型,声称其是构建精准AI智能体“最高效的开放模型家族” [3] - 该模型家族包括:用于特定任务的Nemotron 3 Nano、为多AI智能体应用构建的Nemotron 3 Super,以及为更复杂任务构建的Nemotron 3 Ultra [4] - 公司CEO黄仁勋表示,开源创新是AI进步的基石,Nemotron旨在将先进AI转化为开放平台,为开发者提供构建规模化智能体系统所需的透明度和效率 [6] 近期在开源AI领域的其他举措 - 上周,公司发布了一个专注于自动驾驶研究的新型开源推理视觉语言模型Alpamayo-R1 [7] - 公司同时为其在宽松许可下开源的Cosmos世界模型增加了更多工作流程和指南,以帮助开发者更好地利用模型开发物理AI [7] 战略背景与行业展望 - 上述活动反映了公司对物理AI将成为其GPU下一个前沿领域的押注 [8] - 公司旨在成为众多机器人或自动驾驶汽车公司在寻找AI与软件以开发技术“大脑”时的首选供应商 [8] - 近几个月来,公司持续推动加强其开源和开放AI产品供应 [6]