Workflow
多模态推理模型
icon
搜索文档
腾讯研究院AI速递 20260430
腾讯研究院· 2026-04-30 00:03
一、AI模型与多模态技术进展 - 英伟达发布全模态推理模型Nemotron 3 Nano Omni,该模型将文本、视觉、语音融合至单一模型,吞吐量达同类开放模型的9倍,并采用Mamba与Transformer混合MoE架构,使内存和计算效率最高提升4倍 [2] - DeepSeek上线识图模式并开启灰测,标志着其多模态视觉理解能力正式落地,实测显示其具备深度推理能力,会主动追问背景并自我纠正 [4] - 阶跃星辰发布轻量级图像生成编辑模型Step Image Edit 2,参数仅3.5B却超越12B-20B级开源模型,单次生图仅需0.5-2秒,并在KRIS-Bench轻量级榜单排名第一 [5][6] 二、AI在创意与设计领域的应用 - Anthropic与Blender、Adobe、Autodesk等合作推出MCP连接器,使Claude能直接操作专业创意软件,涵盖3D建模、平面设计、音乐制作等领域 [1] - Claude可充当创意辅导工具、编写脚本插件、桥接多软件流水线,并推出Claude Design产品用于探索软件设计方向 [1] - Anthropic加入Blender开发基金支持开源,并与罗德岛设计学院等三所艺术院校合作试点AI创意教育 [1] 三、AI模型轻量化与边缘部署 - 腾讯混元开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,将支持33种语言的翻译大模型压缩至440MB,可在手机本地离线运行,翻译质量超越谷歌翻译 [7] - 该模型采用Sherry稀疏三值量化技术实现1.25-bit极致压缩,完全本地处理无需联网,零隐私泄露风险 [7] - 英伟达的Nemotron 3 Nano Omni模型因其高效架构,适配边缘部署场景 [2] 四、具身智能与机器人模型发展 - 银河通用发布1.6B参数的跨本体世界-动作基础模型LDA-1B,首次实现虚实共融、人机混合、有无标注的全类数据统一高效利用 [10] - 该模型在单一扩散框架内融合策略学习、前向/逆向动力学和视觉预测四大能力,性能超越GR00T-N1.6和π0.5等顶尖模型最高达48%,仅需1小时训练即可适配不同机器人本体 [10] - 生数科技发布通用世界行动模型Motubrain,基于UniDiffuser框架统一建模视频与动作模态,具备多本体适配、多任务泛化与长程任务执行能力,可完成10个原子动作级别的复杂长程任务 [11][12] 五、AI助手与生产力工具升级 - 亚马逊云科技推出桌面端AI助手Amazon Quick,深度联通本地文件、邮箱、日程及Microsoft 365、Slack、Salesforce等主流办公平台 [9] - 该产品支持自然语言生成演示文稿、数据看板,能主动识别待办事项和日程冲突,实测显示文档制作时长缩减80%,研发测试周期缩短67% [9] - ima正式推出知识Agent——copilot,内置记忆系统,可跨场景连续调用,并以浮窗形式伴随用户浏览网页、文件,无需额外上传即可理解当前内容并完成处理 [8] 六、开源生态与行业影响 - HashiCorp联合创始人Mitchell Hashimoto将拥有5.2万星的开源终端项目Ghostty迁离GitHub,核心原因是平台故障频发严重影响开发,其记录显示近一个月几乎每天都遇到平台故障 [3] - 英伟达的Nemotron 3 Nano Omni模型开源开放商用授权,已被富士康、Palantir等早期采用 [2] - 阶跃星辰的Step Image Edit 2模型和腾讯混元的Hy-MT1.5-1.8B-1.25bit翻译模型均已开源 [5][7]
英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍
36氪· 2026-04-29 21:00
产品发布与核心特性 - 英伟达正式推出全新多模态推理模型Nemotron 3 Nano Omni,该模型将文本、视觉、语音三大模态能力深度融合至单一模型体系,并可免费使用 [1] - 模型可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入,并以文本形式输出 [1] - 模型采用混合专家(MoE)架构,可根据不同任务与模态动态激活专家网络,在保证高吞吐的同时实现强多模态感知能力 [1][6] - 模型的核心架构创新性地将Mamba层与Transformer层深度融合,Mamba层提升序列处理效率与内存利用率,Transformer层保障精准推理计算,使内存和计算效率最高提升4倍 [6] 性能表现与数据 - 模型整体吞吐量达到同类开放多模态模型的9倍 [1][6] - 在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五;在视频理解任务DailyOmni和音频理解任务VoiceBench上排名第一,超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5 Flash [1] - MediaPerf数据显示,其在多任务场景中实现最高吞吐量,并在视频级标注任务中具备最低推理成本 [1] - 对于视频推理,与替代的开放式全向模型相比,其有效系统容量可提高约9.2倍 [6] - 对于多文档推理,与替代的开放式全向模型相比,其有效系统容量可提高约7.4倍 [7] - 从之前的Nemotron Nano VL V2型号到Nemotron 3 Nano Omni,多模态精度在行业领先的基准测试中均有所提高 [8] - Nemotron 3模型系列在过去一年中的下载量已超过5000万次 [5] 技术能力与实测 - 模型训练使用了Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行改进 [2] - 实测显示模型能快速解析演讲视频并提炼关键信息,可应答特定人物演讲中的细分议题相关问题,问答贴合原文 [2] - 模型能读取、解析专业技术文档,解答模型训练类硬核技术问题,展现出不俗的理解能力、多模态信息处理与专业内容解读能力 [2] - 在具体测试中,模型能在几秒内完成对三分多钟演讲视频的画面与语音联合理解,准确概括核心观点并指出关键信息 [3] - 模型具备对长视频内容的持续记忆与跨模态检索能力,能快速定位相关片段并给出细致回答 [4] - 模型能在同一推理框架下无缝衔接处理从视频到文本的多源信息,解析复杂技术细节 [5] 应用场景与部署 - 主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能,以及客户服务和研究应用的音视频理解 [5] - 模型提供开放的权重、数据集和训练技术,可部署在本地系统、数据中心和云环境中,以满足监管、主权或数据本地化要求 [5] - 早期采用者包括Aible、富士康、Palantir和H Company,戴尔科技、DocuSign、Infosys和Oracle等公司正在评估该模型 [5] 市场竞争与差异化 - 智能体推理领域的开源AI模型市场竞争激烈,参与者包括Meta的Llama系列、谷歌的Gemini、OpenAI的GPT系列以及Deepseek新发布的V4-Pro、V4-Flash [9] - Nemotron 3 Nano Omni的核心差异化在于四大优势的独家集合:单模型统一视觉、音频、文本多模态感知;混合专家高能效适配边缘部署;开源权重开放;完全商用授权 [9] - 目前暂无竞品同时具备全部特性,对标产品各有短板,例如谷歌端侧模型Gemini Nano未开源,Meta Llama多模态版本无法在统一架构内整合音频处理能力 [9] 战略意义与行业影响 - 该模型的战略影响远超产品本身,若其成为智能体部署的主流选择,英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体 [11] - 竞品若基于英伟达模型二次开发,会进一步加深对英伟达硬件的依赖;即便对手自主研发模型,训练环节仍离不开英伟达GPU算力支撑 [11] - 此举旨在渗透产业每一层核心环节、构筑不可替代性,而非追求单点垄断 [11]