公司战略与产品发布 - 英伟达推出名为Nemotron 3 Nano Omni的全新开源模型,主攻“原生全模态理解+高效推理”,旨在为企业级AI Agent提供一体化基础模型底座[1] - 该模型融合了视觉、音频与语言能力,号称能帮助AI智能体实现高达9倍的效率提升[1] - 英伟达正加速从“算力霸主”向“模型平台商”延伸,通过提供“施工方案”(模型与工具链)加深其在AI产业链中的纵深布局[6] 产品技术特点 - Nemotron 3 Nano Omni强调“原生全模态”,可同时处理文本、图像、音频甚至视频输入,并在统一架构内完成理解与推理任务[2] - 模型具备从视频和文档中提取信息的能力,支持复杂场景下的跨模态推理[2] - 模型采用融合Transformer与Mamba机制的混合架构,并引入混合专家(MoE)机制以在保持性能的同时大幅降低推理成本[2] - 模型是首个“生产级开放模型”,专为构建可扩展AI Agent设计,支持长上下文、多步骤推理以及工具调用等能力[3] - 模型引入GUI训练数据,使AI可以理解和操作界面元素,贴近自动化办公、软件操作等真实应用场景[3] 产品性能与定位 - Nemotron 3 Nano基础模型采用约300亿参数规模,但通过MoE机制每次仅激活30亿参数,在性能与成本之间取得平衡[4] - 该系列模型支持超长上下文(最高达百万token级别),适合处理复杂文档与长流程任务[4] - 在英伟达产品体系中,Nano、Super与Ultra形成梯度:Nano强调效率,Super面向高吞吐企业场景,Ultra则瞄准前沿推理能力[4] 市场与生态策略 - 英伟达强调“开放”策略,不仅开放模型权重,还配套提供训练数据、工具链(如NeMo)以及优化方案,试图打造完整开发生态[6] - 公司正以“开放+高性能”策略切入市场,吸引开发者与企业客户[6] - 已有一批AI与软件公司率先采用该模型,包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir和Pyler[1] - 另有多家公司正在对该模型进行评估,包括戴尔、DocuSign、Infosys、K-Dense、Lila、甲骨文和Zefr[1] 行业趋势与竞争 - AI行业竞争正从单一语言理解升级为多模态融合+任务执行能力的系统竞争[6] - AI应用正从“聊天机器人”迈向具备决策与执行能力的“智能代理”[3][6] - “全模态+Agent”组合意味着AI系统可以直接处理现实世界中的非结构化数据(视频、语音、文档),并据此做出决策,从而拓展AI在企业中的落地边界[3]
效率提升9倍!英伟达新模型Nemotron 3 Nano Omni瞄准智能体落地,整合语音、视觉与推理能力