OmniVinci
搜索文档
一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”
AI前线· 2025-11-11 14:42
产品发布与技术特点 - 公司推出专为多模态理解与推理设计的大语言模型OmniVinci,能够处理文本、视觉、音频及机器人数据等多种输入形式[2] - 该模型结合了架构创新与大规模合成数据流水线,核心组件包括用于对齐视觉和音频嵌入的OmniAlignNet、用于捕捉动态变化关系的时间嵌入分组以及用于编码绝对时间信息的受限旋转时间嵌入[2] - 研究团队构建了新的数据合成引擎,生成了超过2400万条单模态和多模态对话用于训练[3] 性能表现与效率 - 模型训练仅使用了0.2万亿个token,仅为对比模型Qwen2.5-Omni的六分之一[3] - 在跨模态理解任务DailyOmni上的性能提升19.05[3] - 在音频任务MMAR上的性能提升1.7,在视觉任务Video-MME上的性能提升3.9[3] 应用前景与研究进展 - 多模态处理能力被证明能显著提升模型的感知与推理能力,表明多模态之间相互强化[4] - 早期实验已延伸至机器人、医学影像和智能工厂自动化等领域,多模态上下文的引入有望提升决策精度并降低响应延迟[4] - 公司为研究人员提供了通过Hugging Face部署的设置脚本与示例,代码库基于NVILA构建并全面支持GPU加速以实现实时应用[6] 社区反响与许可争议 - 尽管论文中称模型为开源,但其实际采用了OneWay Noncommercial License许可证,限制了商业用途[4] - 此举在研究者与开发者社区中引发讨论,被批评为并非真正的开源,而是“地主收租”式的利益收割[5] - 有用户抱怨访问受限,被卡在用户审核流程中,难以获取基准测试结果[6]
英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
36氪· 2025-11-07 18:48
公司产品发布 - 英伟达正式推出并开源其全模态大模型OmniVinci,该模型能同时精准解析视频和音频信号,特别擅长视觉和听觉信号的时序对齐 [1][2] - OmniVinci模型参数规模为90亿(9B),在多项多模态基准测试中性能超越同级别甚至更高级别的竞争对手 [1][5] - 模型训练数据效率极高,仅使用0.2T(2000亿)tokens的训练数据即达到顶尖水平,而其竞争对手数据集规模普遍在1.2T以上,训练效率是对手的6倍 [9] - 模型通过全对齐网络、时序嵌入分组和约束旋转时间编码等核心技术,实现了视觉和听觉信号的高精度时序对齐 [9] 产品性能优势 - 在视频理解任务中,结合音频进行显式多模态学习后,模型性能出现突破性进步,例如在VideoMME基准上,采用显式学习策略后得分从66.37提升至68.63 [8][9] - 音频的加入为视觉任务引入了新信息维度,使模型在无字幕视频理解等任务上提升显著,例如在无字幕的中长视频任务中,性能分别提升了7.89和6.67个百分点 [8][9] - 模型在视频内容理解、语音转录、机器人导航等场景中能提供高效支持,展现出卓越的多模态应用能力 [1][11] 行业竞争格局 - 开源大模型领域竞争激烈,中国大模型如DeepSeek和Qwen正强势统治开源基础模型领域,凭借卓越性能和快速迭代成为全球AI从业者的重要参照物 [1] - 英伟达作为AI硬件巨头亲自下场开源大模型,其入局传递了硬件厂商也要掌握模型定义权的清晰信号 [1][7] - 英伟达的开源模型策略被视作开源社区的友军而非对手,因为开源模型越多人使用会带动更多GPU需求,公司是开源模型的最大受益者 [18] 市场影响与生态 - OmniVinci的发布在开源社区引起巨大反响,在huggingface上已斩获一万多次下载量 [19] - 该模型是英伟达“软硬一体”生态的自然延伸,也是对AI开源生态的一次强力助推 [22] - 开源格局因此更加清晰,一方是以DeepSeek、Qwen为代表的中国开源力量,另一方是手握算力霸权的英伟达,通过技术标杆和生态孵化加速AI进程 [22]
开源即爆火!英伟达重磅推出OmniVinci全模态大模型
机器之心· 2025-11-06 13:28
文章核心观点 - 英伟达开源了名为OmniVinci的全模态大语言模型,该模型实现了视觉、音频、语言在统一潜空间中的理解,标志着AI向更接近人类的多模态感知能力迈进 [1][2] - OmniVinci在多项基准测试中性能超越竞品,并通过三大架构创新和高效数据引擎,以更少的数据量实现了卓越的全模态理解能力 [5][6][7][15] - 该模型在多个真实场景中展现出强大的应用潜力,预示着AI将从割裂的单模态模型向统一的全模态感知系统演进 [42][43] 模型性能表现 - 在多项多模态基准测试中取得显著优势,包括视频-音频跨模态理解任务(DailyOmni +19.05)、音频理解(MMAR +1.7)和视频理解(Video-MME +3.9)[6] - 模型仅用9B参数,在Huggingface平台上线一周内模型权重下载量已超过10000次 [2] - 与相近尺寸竞品相比,OmniVinci少用了近6倍的数据量实现了性能超越,展现了其架构和数据引擎的卓越效率 [6] 核心架构创新 - **OmniAlignNet**:作为跨模态语义对齐网络,它创建了一个共享空间,通过对比学习实现视觉和音频信号的深度对齐 [10] - **Temporal Embedding Grouping (TEG)**:时间嵌入分组机制,将视觉帧与音频信号按时间戳重组,使模型能理解事件的相对先后关系 [12] - **Constrained Rotary Time Embedding (CRTE)**:通过时间旋转编码赋予模型绝对时间感知能力,能精确识别事件发生在视频的具体时间点 [12] 数据引擎与训练方法 - 构建了包含2400万条多模态对话样本的全模态数据引擎,数据分布为图像36%、音频与语音共38%、视频11%、全模态数据15% [15] - 采用两种创新学习方式:隐式全模态学习直接利用视频自带音频的问答数据;显式全模态学习通过AI生成模态专属描述并由LLM交叉修正,以解决单模态模型的“幻觉”问题 [15] - 研究发现音视频联合学习能显著提高视频理解能力,加入数据引擎的显式学习后,模型在多个基准上实现性能飞跃 [19] 强化学习优化效果 - 在GRPO强化学习框架下,加入音频训练使模型收敛速度更快,视听结合的训练效果远优于仅使用视觉 [20] - OmniVinci凭借更强的基础性能和指令跟随能力,在15步内超越Qwen2.5-Omni的准确率,且格式奖励收敛速度快了2.7倍 [22] - 经过RL训练的OmniVinci+RL在所有全模态基准上实现全面提升,例如Worldsense提升0.47、Dailyomni提升0.58、Omnibench提升1.32 [24] 实际应用场景 - **联合视听感知**:能同时理解播客视频中的画面内容和讨论的复杂话题 [25] - **语音交互与机器人控制**:能听懂语音指令并规划机器人行动,实现实用的人机交互 [28][31][33] - **专业领域应用**:在医疗场景中能同步理解CT影像动态变化和医生的专业解说,准确回答高难度问题 [35] - **实时内容解说**:在体育比赛中能同步理解视觉动作和解说员评论,在消费级显卡GeForce RTX 4090上延迟极低,具备直播应用潜力 [39]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-01 10:33
芯片领域 - 英伟达推出Vera Rubin芯片[3] - 高通发布新AI推理方案[3] 模型进展 - OpenAI发布安全分类模型[3] - Cursor推出自研Composer模型[3] - Thinking Machines研究同策略蒸馏技术[3] - 英伟达开发OmniVinci模型[3] - MiniMax发布M2模型[3] - 北京智源推出悟界·Emu3.5模型[3] - OpenFold Consortium发布OpenFold3模型[3] 应用创新 - Sora推出角色客串功能[3] - MiniMax发布MiniMax Speech 2.6应用[3] - Soul AI Lab推出SoulX-Podcast应用[3] - Adobe发布Firefly Image 5应用[3] - 腾讯混元推出交互式AI播客应用[3] - PayPal将数字钱包嵌入AI应用[3] - Windsurf等应用接入中国大模型[3] - xAI推出Grokipedia应用[4] - Anthropic发布Claude for Excel应用[4] - 特斯拉开发世界模拟器应用[4] - 美团推出LongCat-Video应用[4] - 火山引擎发布豆包视频模型应用[4] - 昆仑万维推出网页复刻应用[4] - xAI发布新AI虚拟女友应用[4] - OpenAI推出公司知识应用并进入AI音乐赛道[4] - 腾讯发布ima 2.0应用[4] - 阿里推出夸克AI眼镜应用[4] 科技前沿 - 1X Technologies推出NEO家用机器人[4] - Hugging Face发布LeRobot v0.4.0[4] - Merge Labs开发超声波脑机接口[4] - Neuralink推出PRIMA人工视觉技术[4] 资本动态 - OpenAI有上市计划并进行资本结构重组[4] - OpenAI收购SAI公司[4] 行业观点 - Anthropic提出AI内省迹象观点[4] - 田渊栋提出AI顿悟观点[4] - Yoshua Bengio提出AGI新定义[4] - OpenAI公开技术路线图并关注心理健康数据使用[4] - 硅谷出现AI高强度工作趋势[4] - DeepMind提出DiscoRL算法观点[4] - ChatGPT采用聊天诱饵策略[4] - AWS提出对开发者未来的展望[4] 行业事件 - 日本呼吁AI版权保护[4] - Yoshua Bengio研究获得百万引用[4]
AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia
搜狐财经· 2025-10-29 04:13
AI视频生成技术 - Hailuo 2.3发布,在动作流畅度、表情细腻度和物理交互真实性方面实现重大突破,标志着AI视频生成进入专业影视时代[1] - 该产品采用双模式策略满足不同场景需求,并提供免费试用,旨在推动国产AI视频生态发展[1] AI编程与开发工具 - 豆包AI编程工具实现从辅助写代码到全自动交付产品的范式跃迁,通过PPT式可视化编辑界面和多Agent协同工作流,使用户无需编程基础即可快速生成交互式H5和数据看板等产品[1][3] - 新版豆包支持自然语言描述或上传草图实现零代码生成网页内容,可视化编辑器可实时生成标准前端代码[3] - Mistral AI推出企业级AI应用开发平台Mistral AI Studio,帮助企业大规模构建、观察和操作AI应用,平台提供模型定制、多模态功能以及安全部署选项[4][8] AI信息与知识平台 - 马斯克推出AI百科全书Grokipedia,旨在提供更公正的信息资源,与维基百科形成竞争,该平台已收录超过88.5万篇文章[4] AI金融应用 - Anthropic推出Claude金融版,通过Excel原生交互、实时金融数据连接和投行级智能Agent技能包三大核心功能革新金融行业效率,显著提升分析师工作效能[9] - DeepSeek模型在港大美股交易竞赛中以10.61%的年化回报率夺冠,超越了GPT、Claude和Gemini等顶尖模型,展示了AI在复杂市场环境中的强大适应力[13][15] AI消费应用与内容理解 - Pinterest推出AI驱动的个性化图板功能,包括‘Styled for you’拼贴画和‘Boards made for you’,推动其向AI购物助手转型[9][11] - 英伟达推出全模态理解模型OmniVinci,在相关任务中比现有顶尖模型高出19.05分,且仅使用1/6的训练数据,展现出卓越的数据效率[12]
腾讯研究院AI速递 20251029
腾讯研究院· 2025-10-29 00:20
高通发布AI推理芯片 - 高通发布两款面向下一代AI推理优化的数据中心解决方案AI200和AI250 [1] - AI200每张加速卡支持768GB LPDDR内存 AI250引入近存计算架构实现超10倍有效内存带宽提升 [1] - 两款解决方案均支持直接液冷散热 PCIe纵向扩展与以太网横向扩展 整机架功耗160千瓦 [1] - AI200预计2026年商用 AI250预计2027年商用 [1] - 解决方案配备丰富软件栈 与主流AI框架无缝兼容 支持一键模型部署 [1] OpenAI资本重组与动态 - OpenAI宣布完成资本结构重组 非营利主体改名为OpenAI Foundation并持有营利实体26%股份 当前估值约1300亿美元 [2] - 微软在营利实体中持有32.5%股份 员工和投资者持有47%股份 [2] - OpenAI已同意额外购买2500万美元微软Azure云服务 [2] - OpenAI Foundation承诺在健康治愈疾病和AI弹性技术解决方案两大领域投入250亿美元 [2] - 软银225亿美元投资将顺利到账 [2] - OpenAI首次公布心理健康数据 每周约0.07%用户出现精神病或躁狂迹象 0.15%用户谈及自杀念头 以8亿周活计算每周约120万人表达自杀倾向 [10] - 新版GPT-5在所有类别中减少39%到52%不良答案 合规性达91% [10] - OpenAI面临16岁男孩自杀案件诉讼 加州政府多次警告公司必须保护年轻用户 [10] MiniMax视频模型升级 - MiniMax发布Hailuo 2.3视频模型 在肢体动作呈现 风格化和人物微表情方面实现显著提升 保持既有价格实现加量不加价 [3] - Hailuo 2.3 Fast模型生成速度更快定价更低 最高可为批量创作降低50%成本 对运动指令响应更优化 [3] - Hailuo Video Agent升级为支持全模态全能创作的Media Agent 可实现一键成片功能并支持自然语言与AI交互共创 [3] 马斯克发布Grokipedia - 马斯克正式发布开源版维基百科Grokipedia V0.1 收录超88万篇文章 每次查询Grok都会核验事实 [4] - Grokipedia对比维基百科在内容详细度和参考资料数量上均有优势 但被指部分内容直接从维基百科照搬复制 [4] - 维基百科页面浏览量同比减少8% 创始人认为AI无法取代维基百科准确性 正成立工作组应对AI搜索时代挑战 [4] Claude集成Excel - Anthropic推出Claude for Excel插件以研究预览形式发布测试版 仅Max Teams或企业版前1000名用户可体验 [5] - 插件可在Excel侧边栏直接使用 支持实时分析数据 自动跳转对应单元格 跟踪并解释修改理由 [5] - Claude新增6项金融领域技能包括可比公司分析 折现现金流模型 尽职调查数据包等 已被领先银行和金融科技公司广泛使用 [6] Thinking Machines Lab研究成果 - OpenAI前CTO Mira Murati的Thinking Machines Lab公布同策略蒸馏研究 以1/10成本达到强化学习同等效果 [7] - 在数学推理任务上 同策略蒸馏用1800 GPU小时达到传统强化学习需17920 GPU小时的性能 成本直降90% [7] - 该方法通过反向KL散度和零折扣因子实现高效训练 无需等待完整轨迹 教师查询仅需一次前向传播 不需要单独奖励模型 [7] 英伟达开源OmniVinci模型 - 英伟达发布OmniVinci全模态理解模型 仅用0.2万亿Token训练数据 数据效率提升6倍 [8] - 在Dailyomni基准测试上比Qwen2.5-Omni高出19.05分 在音频理解MMAR测试上高出1.7分 在视频理解Video-MME测试上高出3.9分 [8] - 创新架构包括OmniAlignNet 时间嵌入分组和约束旋转时间嵌入三大技术 实现视觉 音频和文本的统一全模态理解 [8] 数学奖项颁发 - 2025塞勒姆奖颁给王虹和Vesselin Dimitrov 世界华人数学家大会ICCM数学奖金奖颁给王虹 邓煜 袁新意 三人均为北大数院校友 [9] - 王虹今年宣布证明挂谷猜想 邓煜与团队突破希尔伯特第六问题 袁新意证明几何Bogomolov猜想 [9] - 塞勒姆奖被视为菲尔兹奖风向标 56位获奖者中诞生10位菲尔兹奖得主 三位获奖者均为明年国际数学家大会45分钟报告人 [9]