DeepSeek之后,智源大模型登Nature:事关“世界模型”统治路线
Seek .Seek .(US:SKLTY) 36氪·2026-02-02 08:22

核心观点 - 北京智源人工智能研究院研发的“悟界·Emu3”多模态大模型在《自然》正刊发表,这是中国首篇围绕多模态大模型路线的Nature论文,标志着中国在AI基础研究领域的原始创新获得国际顶级学术认可 [1] - 该模型的核心突破在于仅采用“预测下一个token”的自回归路线,实现了文本、图像和视频的统一学习与生成,其性能可与针对特定任务设计的专用模型相媲美,为构建统一、可扩展的多模态智能系统提供了新范式 [3][10] - 该技术路线因其架构极简,被认为具备强大的扩展潜力,能有效降低大模型研发门槛和成本,对推动原生多模态助手、世界模型及具身智能等产业发展具有重大意义 [4][34] 技术突破与架构创新 - 统一的技术路线:Emu3开创性地仅采用“预测下一个token”的自回归路线,将图像、文本和视频统一离散化到同一表示空间,并联合训练单一的Transformer,实现了多模态的统一学习与生成 [10] - 极简的架构优势:模型保留了Llama-2等大语言模型的解码器架构,主要修改在于扩展嵌入层以容纳离散视觉标记,这种极简架构简化了多模态AI设计,减少了研发复杂性和潜在错误 [4][35] - 框架核心组件:包含五个紧密集成的组件:1)大型混合多模态训练数据集;2)统一的标记器(视觉分词器);3)基于Transformer的仅解码器架构;4)两阶段优化方案(预训练与后训练);5)高效的推理后端 [35][37] 模型性能表现 - 图像生成:在MSCOCO-30K23等基准测试中,Emu3得分70.0,超越了SD-1.5(59.3)和SDXL(66.9)等扩散模型 [3][4] - 视觉语言理解:在相关测评中得分62.1,略高于LLaVA-1.6(61.8) [3][4] - 视频生成:在VBench评分中达81.0,超过Open-Sora-1.2(79.8) [3][4] - 综合竞争力:在文生图任务上,其CLIP-I得分0.689,CLIP-T得分0.313,综合得分(Overall)0.66,与DALL-E 3(0.67)和FLUX.1(Dev)(0.66)等先进模型相当 [13][14] - 视频扩展能力:可原生生成24帧/秒的5秒视频,并通过自回归方式预测未来帧进行扩展,在与其他视频扩散模型的对比中展现出强竞争力 [25][29][30] 研发历程与产业影响 - 研发背景与挑战:项目于2024年2月由约50人团队立项,旨在验证自回归路线能否统一多模态,面临技术路径质疑、资源竞争及“多模态能否提升模型智能”等未定论的挑战 [8][12] - 持续迭代与升级:“悟界·Emu”系列持续迭代,2024年10月发布的Emu3实现了统一多模态理解与生成;2025年10月发布的Emu3.5进一步升级为多模态世界模型,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁 [6][34][42] - 对产业的影响:模型发布两年多以来,已对多模态领域产生显著影响,推动了产业发展脉络,其极简统一的架构有望降低研发门槛和成本,具有重大的产业应用前景 [12][34] 机构背景与行业地位 - 智源研究院的贡献:智源研究院自2018年创立以来,持续聚焦大模型原始创新,2021年发布中国首个大语言模型“悟道1.0”,被称为“大模型的黄埔军校” [40] - 开源开放理念:智源始终坚持开源开放,已开源200多款模型,全球下载量超7.6亿次,并开源180多个数据集,下载量超500万次,有力促进了开源生态和产业链发展 [43] - 北京AI产业生态:作为“大模型第一城”和“开源之都”,北京通过政策支持与扎实投入,培育了包括智源、智谱、百度、月之暗面等在内的领先AI机构,在AI基础研究领域展现出深远价值 [44][45]

Seek .-DeepSeek之后,智源大模型登Nature:事关“世界模型”统治路线 - Reportify