Nvidia-英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

产品发布与核心特性 - 英伟达正式推出全新多模态推理模型Nemotron 3 Nano Omni，该模型将文本、视觉、语音三大模态能力深度融合至单一模型体系，并可免费使用 [1] - 模型可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入，并以文本形式输出 [1] - 模型采用混合专家（MoE）架构，可根据不同任务与模态动态激活专家网络，在保证高吞吐的同时实现强多模态感知能力 [1][6] - 模型的核心架构创新性地将Mamba层与Transformer层深度融合，Mamba层提升序列处理效率与内存利用率，Transformer层保障精准推理计算，使内存和计算效率最高提升4倍 [6] 性能表现与数据 - 模型整体吞吐量达到同类开放多模态模型的9倍 [1][6] - 在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五；在视频理解任务DailyOmni和音频理解任务VoiceBench上排名第一，超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5 Flash [1] - MediaPerf数据显示，其在多任务场景中实现最高吞吐量，并在视频级标注任务中具备最低推理成本 [1] - 对于视频推理，与替代的开放式全向模型相比，其有效系统容量可提高约9.2倍 [6] - 对于多文档推理，与替代的开放式全向模型相比，其有效系统容量可提高约7.4倍 [7] - 从之前的Nemotron Nano VL V2型号到Nemotron 3 Nano Omni，多模态精度在行业领先的基准测试中均有所提高 [8] - Nemotron 3模型系列在过去一年中的下载量已超过5000万次 [5] 技术能力与实测 - 模型训练使用了Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行改进 [2] - 实测显示模型能快速解析演讲视频并提炼关键信息，可应答特定人物演讲中的细分议题相关问题，问答贴合原文 [2] - 模型能读取、解析专业技术文档，解答模型训练类硬核技术问题，展现出不俗的理解能力、多模态信息处理与专业内容解读能力 [2] - 在具体测试中，模型能在几秒内完成对三分多钟演讲视频的画面与语音联合理解，准确概括核心观点并指出关键信息 [3] - 模型具备对长视频内容的持续记忆与跨模态检索能力，能快速定位相关片段并给出细致回答 [4] - 模型能在同一推理框架下无缝衔接处理从视频到文本的多源信息，解析复杂技术细节 [5] 应用场景与部署 - 主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能，以及客户服务和研究应用的音视频理解 [5] - 模型提供开放的权重、数据集和训练技术，可部署在本地系统、数据中心和云环境中，以满足监管、主权或数据本地化要求 [5] - 早期采用者包括Aible、富士康、Palantir和H Company，戴尔科技、DocuSign、Infosys和Oracle等公司正在评估该模型 [5] 市场竞争与差异化 - 智能体推理领域的开源AI模型市场竞争激烈，参与者包括Meta的Llama系列、谷歌的Gemini、OpenAI的GPT系列以及Deepseek新发布的V4-Pro、V4-Flash [9] - Nemotron 3 Nano Omni的核心差异化在于四大优势的独家集合：单模型统一视觉、音频、文本多模态感知；混合专家高能效适配边缘部署；开源权重开放；完全商用授权 [9] - 目前暂无竞品同时具备全部特性，对标产品各有短板，例如谷歌端侧模型Gemini Nano未开源，Meta Llama多模态版本无法在统一架构内整合音频处理能力 [9] 战略意义与行业影响 - 该模型的战略影响远超产品本身，若其成为智能体部署的主流选择，英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体 [11] - 竞品若基于英伟达模型二次开发，会进一步加深对英伟达硬件的依赖；即便对手自主研发模型，训练环节仍离不开英伟达GPU算力支撑 [11] - 此举旨在渗透产业每一层核心环节、构筑不可替代性，而非追求单点垄断 [11]