Nvidia-深夜王炸！英伟达开源最强AI智能体模型，效率狂飙900%

英伟达发布Nemotron 3 Nano Omni多模态大模型 - 英伟达发布Nemotron 3 Nano Omni开源全能多模态大模型，采用30B-3B MoE混合专家架构，整合视觉、语音、文本多维能力于一体[1] - 该模型帮助AI智能体依托视频、音频、图像、文本全维度信息开展深度推理，输出更快、更智能的交互应答，为企业与开发者提供可落地的工程化方案[1] - 模型显著提升了大规模推理效率，使AI系统的吞吐量比其他具有相同交互性的开放式全向模型高出9倍（900%），最终实现了更低的成本和更好的可扩展性[1][2] 模型性能与架构优势 - 新模型在MMlongbench-Doc和OCRBenchV2等文档智能排行榜上提供了一流的准确性，同时在WorldSense、DailyOmni和VoiceBench等视频和音频理解排行榜上名列前茅[3] - MediaPerf基准测试显示，Nemotron 3 Nano Omni在所有任务中都实现了最高的吞吐量，并且在视频级标注方面推理成本最低[3] - 模型采用融合Mamba层与Transformer层结构，分别强化序列内存效率与推理精准度，大幅提升模型吞吐量，内存与计算效率最高可提升4倍[6] - 多模态体系以成熟文本模型作为核心解码器，有效降低多模态训练的难度、成本与不稳定性，强化连续感知任务的综合表现[7] 训练数据与技术支持 - NVIDIA发布了业界最全面的基于文本的智能AI开放数据集，其中包括：10T+预训练标记、4000+训练后样本、20多个RL环境配置和完整的训练方案[8] - 模型层面约1270亿个标记，涵盖文本+图像、文本+视频、文本+音频和文本+视频+音频等混合模态[8] - 针对真实世界任务的训练后训练包含约1.24亿个精心挑选的多模态组合示例，旨在支持文档推理、计算机使用和长期工作流程[8] - 英伟达提供了使用NVIDIA NeMo Data Designer构建的合成数据生成流水线，用于对模型进行后训练，最终将一系列生成约1140万个合成视觉问答对（约450亿个tokens）整合到最终训练数据集中[9] 市场应用与合作伙伴 - 对于需要维护独立视觉、语音和文档数据栈的企业，Omni将这些数据栈整合到一个单一的、可用于生产环境的基础架构中，降低了跨模态部署智能体的门槛[11] - 已经采用Nemotron 3 Nano Omni的公司包括Aible、ASI、Eka Care、富士康、H Company、Palantir和Pyler，而戴尔科技、DocuSign、Infosys等公司正在评估该模型[11] - H Company首席执行官表示，基于该模型，其智能体可以快速解读全高清屏幕录像，实现了智能体实时感知和与数字环境交互方式的根本性转变[11] OpenAI回应增长质疑与行业动态 - 针对市场有关销售增长放缓及未达内部目标的担忧，OpenAI公开回应称公司消费端与企业业务正"全速运转"，需求持续增长，并淡化相关负面报道影响[4] - 《华尔街日报》报道称OpenAI未能达成若干内部增长目标，并担忧若销售增长不足，公司未来可能无力承担不断攀升的算力需求[12] - 受此影响，OpenAI相关概念股出现明显下跌，其中甲骨文跌超4%，CoreWeave跌超5.7%[12] - 市场开始质疑OpenAI及其他科技公司未来数年投入数千亿美元建设数据中心与采购芯片的计划能否带来合理回报[12] OpenAI的战略调整与合作伙伴关系 - OpenAI表示，公司仍将扩大算力资源视作"关键推动因素"，认为更多计算能力将帮助其持续改善客户产品体验，是支撑长期竞争优势的重要基础[13] - 公司近期已开始对基础设施投资采取更审慎态度，包括暂停英国一个项目，以及微软同意租赁原本拟供OpenAI使用的挪威数据中心容量[13] - 微软与OpenAI对延续七年的合作框架作出重大调整，微软将不再向OpenAI支付收入分成，OpenAI对微软的收入分成持续到2030年并设总额上限[14] - 修订后的协议取消了此前"一旦OpenAI被认定实现AGI，收入分成即停止"的触发条款，意味着无论OpenAI是否达成AGI，微软都能稳定收到至2030年的分成[15] - 双方声明提到了其他意向合作领域，包括新建千兆级算力数据中心、联合研发新一代芯片、AI技术在网络安全领域的落地等[15]