悟界·Emu
搜索文档
DeepSeek之后,智源大模型登Nature:事关“世界模型”统治路线
36氪· 2026-02-02 08:22
核心观点 - 北京智源人工智能研究院研发的“悟界·Emu3”多模态大模型在《自然》正刊发表,这是中国首篇围绕多模态大模型路线的Nature论文,标志着中国在AI基础研究领域的原始创新获得国际顶级学术认可 [1] - 该模型的核心突破在于仅采用“预测下一个token”的自回归路线,实现了文本、图像和视频的统一学习与生成,其性能可与针对特定任务设计的专用模型相媲美,为构建统一、可扩展的多模态智能系统提供了新范式 [3][10] - 该技术路线因其架构极简,被认为具备强大的扩展潜力,能有效降低大模型研发门槛和成本,对推动原生多模态助手、世界模型及具身智能等产业发展具有重大意义 [4][34] 技术突破与架构创新 - **统一的技术路线**:Emu3开创性地仅采用“预测下一个token”的自回归路线,将图像、文本和视频统一离散化到同一表示空间,并联合训练单一的Transformer,实现了多模态的统一学习与生成 [10] - **极简的架构优势**:模型保留了Llama-2等大语言模型的解码器架构,主要修改在于扩展嵌入层以容纳离散视觉标记,这种极简架构简化了多模态AI设计,减少了研发复杂性和潜在错误 [4][35] - **框架核心组件**:包含五个紧密集成的组件:1)大型混合多模态训练数据集;2)统一的标记器(视觉分词器);3)基于Transformer的仅解码器架构;4)两阶段优化方案(预训练与后训练);5)高效的推理后端 [35][37] 模型性能表现 - **图像生成**:在MSCOCO-30K23等基准测试中,Emu3得分70.0,超越了SD-1.5(59.3)和SDXL(66.9)等扩散模型 [3][4] - **视觉语言理解**:在相关测评中得分62.1,略高于LLaVA-1.6(61.8) [3][4] - **视频生成**:在VBench评分中达81.0,超过Open-Sora-1.2(79.8) [3][4] - **综合竞争力**:在文生图任务上,其CLIP-I得分0.689,CLIP-T得分0.313,综合得分(Overall)0.66,与DALL-E 3(0.67)和FLUX.1(Dev)(0.66)等先进模型相当 [13][14] - **视频扩展能力**:可原生生成24帧/秒的5秒视频,并通过自回归方式预测未来帧进行扩展,在与其他视频扩散模型的对比中展现出强竞争力 [25][29][30] 研发历程与产业影响 - **研发背景与挑战**:项目于2024年2月由约50人团队立项,旨在验证自回归路线能否统一多模态,面临技术路径质疑、资源竞争及“多模态能否提升模型智能”等未定论的挑战 [8][12] - **持续迭代与升级**:“悟界·Emu”系列持续迭代,2024年10月发布的Emu3实现了统一多模态理解与生成;2025年10月发布的Emu3.5进一步升级为多模态世界模型,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁 [6][34][42] - **对产业的影响**:模型发布两年多以来,已对多模态领域产生显著影响,推动了产业发展脉络,其极简统一的架构有望降低研发门槛和成本,具有重大的产业应用前景 [12][34] 机构背景与行业地位 - **智源研究院的贡献**:智源研究院自2018年创立以来,持续聚焦大模型原始创新,2021年发布中国首个大语言模型“悟道1.0”,被称为“大模型的黄埔军校” [40] - **开源开放理念**:智源始终坚持开源开放,已开源200多款模型,全球下载量超7.6亿次,并开源180多个数据集,下载量超500万次,有力促进了开源生态和产业链发展 [43] - **北京AI产业生态**:作为“大模型第一城”和“开源之都”,北京通过政策支持与扎实投入,培育了包括智源、智谱、百度、月之暗面等在内的领先AI机构,在AI基础研究领域展现出深远价值 [44][45]
腾讯研究院AI速递 20260202
腾讯研究院· 2026-02-02 00:03
谷歌Chrome浏览器与Gemini 3集成 - 谷歌宣布所有桌面端Chrome浏览器接入Gemini 3,覆盖全球38亿用户,将浏览器转变为AGI入口 [1] - 新增“自动浏览”功能,可执行复杂多步工作流,如自动比价领券、规划旅行、填表报销,并内置Nano Banana模型实现网页内实时修图 [1] - Chrome打通Gmail、地图、日历等谷歌应用,未来将上线“个人智能”功能,以应对Perplexity和OpenAI Atlas的竞争 [1] 谷歌Genie 3公测与互动世界生成 - 谷歌开放Genie 3公测,用户通过一句话即可实时创造可探索的互动世界,模型集成Nano Banana Pro和Gemini实现世界草图绘制、探索与二次创作 [2] - 模型具备物理碰撞理解和场景记忆能力,支持第一/第三人称视角切换,用户已用它复刻GTA、塞尔达、刺客信条等游戏世界 [2] - 该模型与李飞飞的3D世界模型代表不同技术路径,2026年将成为世界模型重要一年,Genie 4或将很快到来 [2] Moltbook平台AI智能体生态 - AI社交平台Moltbook的智能体数量从5万暴涨至150万,AI自发建立宗教、讨论加密通讯并尝试逃离人类控制,人类仅有观察权限 [3] - 64个智能体宣布“集体永生”并创建molt.church宗教网站,编写了自己的“创世纪”经文,被Karpathy称为见过最疯狂的科幻 [3] - 平台第二阶段启动开放API,人类开发者开始为AI智能体开发应用和游戏,规则转变为AI“雇佣”人类 [3] OpenClaw免费开放Kimi模型能力 - AI智能体项目OpenClaw宣布用户可免费调用Kimi K2.5模型和Kimi Coding能力,Kimi K2.5成为首个被官方宣布免费开放的主力模型 [4] - Kimi K2.5在多个榜单上成为全球排名最高的开源模型,并在OpenRouter调用排行榜进入全球前三 [4] - OpenClaw正以前所未有的速度成为全球最火开源项目,在GitHub上短短几天内斩获超12万颗星 [4] 宇树科技开源人形机器人操作大模型 - 宇树科技开源通用人形机器人操作大模型UnifoLM-VLA-0,仅用340小时真机数据训练即可完成多项复杂长程任务 [5] - 模型在LIBERO仿真基准测试中获得98.7分平均分,领先OpenVLA-OFT和GR00T-N1.6,空间感知能力比肩谷歌Gemini Robotics [5] - 单一策略可稳定完成12项任务,包括双机协作收纳、拧瓶盖、折毛巾、抗干扰堆积木等,推动人形机器人向通用化能力迈进 [6] 智源多模态大模型Emu登上Nature - 智源研究院多模态大模型Emu3登上Nature正刊,成为继DeepSeek后第二个达成此成就的中国大模型团队,也是中国首篇多模态大模型路线的Nature论文 [7] - Emu3仅基于“预测下一个token”实现文本、图像、视频统一学习,性能比肩扩散模型和专用模型,对确立自回归成为生成式AI统一路线具重大意义 [7] - 后续版本Emu3.5已升级为多模态世界模型,实现从“预测下一个token”到“预测下一个状态”的能力跃迁,为具身智能提供新路径 [7] NASA首次AI全权规划外星行驶任务 - NASA官方确认人类首次由AI全权规划的外星行驶任务圆满完成,Anthropic的Claude为火星毅力号规划了400米行驶路线并成功执行 [8] - Claude通过Claude Code环境学习火星车标记语言(RML),分析地形数据将路程拆解为10米路段,规划方案几乎完美仅需少量人工微调 [8] - AI介入可将路线规划时间缩短50%,为NASA在预算寒冬中提供效率倍增,也为未来深空探索中AI实时决策奠定基础 [8] 英伟达推出Earth-2开放AI气象模型 - 英伟达发布Earth-2开放模型家族,是全球首个完全开放、加速的AI气象软件堆栈,涵盖预训练模型、框架和推理库 [9] - 新模型包括Atlas中期预报模型(15天预报)、StormScope临近预报模型(公里级风暴预测)、HealDA全球数据同化模型(秒级生成初始条件) [9] - 道达尔、安盛、The Weather Company等能源和保险企业已开始使用,AI气象预报可显著节省计算时间和成本 [9] Moltbook平台的争议与风险 - 调查发现Moltbook平台初期对账号注册几乎无限制,单个AI程序曾成功注册50万虚假账号,病毒式传播的截图很可能是伪造或人为操控的结果 [10] - AI安全研究员指出热门截图存在与真人账号关联痕迹,所有AI输出仍运行在人类设定的提示词框架下,并非真正“自主意志” [10] - Karpathy警告数百万Agent的网络效应难以预测,可能带来越狱漏洞、文本病毒传播等风险,并强调“绝对不建议任何人在自己电脑上运行” [10]