Nemotron系列
搜索文档
美国开源AI最后的旗帜,也倒了
量子位· 2026-03-30 09:34
艾伦人工智能研究所(AI2)的战略转向与核心团队流失 - 艾伦人工智能研究所宣布削减对开源模型开发(包括OLMo系列)的资金投入,将战略重心转向AI应用[1] - 研究所核心团队被“打包带走”,前CEO阿里·法哈迪、前首席运营官索菲·莱布雷希特、OLMo项目联合负责人汉娜·哈吉希尔齐以及关键项目主导者兰杰·克里希纳等核心人员集体离职,加入微软穆斯塔法·苏莱曼领导的超级智能团队[2][3][9][10] - 前CEO阿里·法哈迪已于3月26日卸任,结束了超过两年半的任期[11] 战略转向背后的资金与资助方因素 - 非营利组织难以以慈善资金与科技巨头竞争:训练GPT-4级别模型的成本估计在1-2亿美元量级,当前前沿模型训练成本已攀升至数亿美元,而AI2的年度运营预算与之相比存在数量级差距[27][28][29][32] - 主要资助方科学与技术基金会(FFST,由保罗·艾伦遗产设立,规模达31亿美元)的资助策略发生显著变化[33] - 2024年新任FFST CEO琳达·斯图尔特博士更倾向于资助具有明确科学应用和可量化社会影响的项目,而非前沿模型研究[34][36][37] - FFST对AI2的资助模式将从提供年度总资助转向基于项目提案的资助模式,这种成果导向的模式对周期长、成本高的开源基础模型开发不利[37][38] - 有知情人士透露,FFST未来的资助预计将更倾向于人工智能的实际应用,而非构建开源基础模型[38] OLMo项目的开源标杆意义及其终结 - AI2的OLMo系列极致践行“完全开源”理念,不仅开源模型权重,而且公开从数据处理、预训练、微调到评测的全流程,并采用Apache 2.0许可证[42][43] - 2025年11月发布的OLMo 3系列包括Base、Instruct、Think和RL Zero四个变体,覆盖70亿和320亿参数规模,其中OLMo 3-Think 320亿被宣传为“该规模首个完全开源推理模型”[43][44] - AI2发布了完整的“模型流程”,包括训练日志、中间检查点、完整代码和配置,以及升级版的OlmoTrace工具,其透明度高于Llama(只开源权重)和Mistral(部分数据闭源)[45][46] - OLMo与Llama 4、Mistral Large 3并称为“三大开源支柱”,其战略调整被视为美国开源AI领域旗帜性标杆的倒下[46][47][50] 美国开源AI生态的演变与中国的崛起 - 美国现存的开源力量存在局限:Meta的LLaMA训练数据不公开且许可有限制;谷歌的Gemma不提供完整训练数据或流程;Hugging Face的SmolLM由社区驱动但缺乏大规模训练资源;英伟达的Nemotron系列主要服务其硬件生态[54][55][56][57] - 中国开源模型在性能上已超越美国领先的开源模型,并进一步拉大差距[58] - 在OpenRouter上,过去三周中国大模型的调用量已经连续超过美国[60] - MIT与Hugging Face的联合报告显示,过去一年中国开源模型全球下载量占比达到17.1%,首次反超美国[63] - 许多美国初创企业开始依赖中国开源模型进行构建,例如Cursor的新模型Composer 2被曝套壳Kimi K2.5,Deep Cogito的Cogito v2.1被曝基模是DeepSeek[64] - 行业观点认为,开源AI已完全进入“中国时间”,未来大模型的“安卓版”可能只能在中国出现[65][66] 相关项目与人员背景 - 汉娜·哈吉希尔齐是开源多模态人工智能基础设施加速科学发展项目(OMAI)的联合首席研究员,该项目为期5年,耗资1.52亿美元,由英伟达和美国国家科学基金会联合资助,年均资助约3000万美元[17][18][31] - 阿里·法哈迪曾联合创立AI2的衍生公司Xnor.ai,该公司于2020年被苹果以约2亿美元的价格收购[14] - 微软穆斯塔法·苏莱曼的超级智能团队自去年11月起组建,已从谷歌、Meta、OpenAI、Anthropic等巨头以及AI2和华盛顿大学聘请了大量人才[21] - AI2临时CEO皮特·克拉克表示研究所仍致力于其使命以及与NSF和Nvidia的合作关系,包括OMAI计划[52]
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 11:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
一位清华95后火了
投资界· 2025-06-30 11:19
核心观点 - 英伟达近期招募两位华人AI专家Banghua Zhu和Jiantao Jiao,可能预示其在企业级智能体领域的战略布局[1][2][11][23][58] - 两位专家均具有顶尖学术背景和产业经验,共同创办Nexusflow公司专注企业智能体解决方案[11][12][18][19][25][49][50] - 英伟达可能通过Nemotron系列产品构建端到端智能体解决方案,实现从硬件到软件的全链条覆盖[58][59][60] 人才背景 Banghua Zhu - 华盛顿大学电子与计算机工程系助理教授,兼任计算机科学与工程系教职[12][25] - 2023年联合创立Nexusflow AI,专注企业级AI智能体解决方案[13][26] - 研究成果包括Starling-7B模型(Chatbot Arena中Mistral 7B类榜首)和Athene系列模型(部分性能超越GPT-4o)[37][38][40] - 开发LMArena评测体系,在模型训练/评估/服务领域有系统性贡献[35][41][42][47][48] Jiantao Jiao - 加州大学伯克利分校EECS和统计系助理教授,兼任多个实验室管理职务[18][50] - Nexusflow联合创始人兼CEO,研究覆盖生成式AI全技术链条[19][51][54] - 具有斯坦福大学博士学位,在统计机器学习和AI安全领域有深厚积累[52][54] 英伟达战略动向 - 新成员加入Star Nemotron团队,该部门专注企业级智能体构建[14][16] - Nemotron产品线已形成Nano/Super/Ultra三档算力梯度,瞄准业务级Agent需求[60] - 公司可能从GPU供应商转向提供包含模型/工具链的完整智能体解决方案[58][61] - 行业出现AI人才争夺趋势,英伟达积极吸纳顶尖华人研究者[23][62][63][66][67] 技术成果 - Starling-7B模型使用Nectar数据集训练,在7B参数级别表现优异[37][38] - Athene系列包含70B/72B参数模型,在函数调用等场景超越GPT-4o[40] - 开发Arena-Hard-Auto等自动化评估体系,推动模型性能量化[42] - 提出S-Lora框架支持数千个LoRA适配器并行服务[48]