智源多模态大模型Emu3首登《自然》
科技日报·2026-02-02 13:23

核心观点 - 北京智源研究院主导的多模态大模型“Emu3”成果发表于《自然》正刊,这是中国科研机构主导的大模型成果首次登陆该期刊,标志着中国在人工智能原始创新领域取得重大突破 [2] 技术性能与突破 - Emu3在文生图任务中性能比肩扩散模型,视觉语言理解能力媲美CLIP与大语言模型融合方案 [6] - Emu3能以纯自回归方式生成高保真视频,并支持视频延展、图文交错生成及机器人操作建模等多元任务 [6] - 团队通过大规模消融实验验证了多模态学习的规模定律,证实直接偏好优化(DPO)可无缝适配自回归视觉生成 [6] - 后续迭代的Emu3.5实现了“预测下一个状态”的能力跃迁,展现出泛化世界建模能力 [6] 行业地位与意义 - Emu3的突破确立了自回归路线在生成式AI中的统一地位 [6] - 《自然》编辑点评称,该成果对构建可扩展、统一的多模态智能系统具有重要意义 [6] - 作为“悟界”大模型系列核心成果,此次突破进一步彰显了中国在人工智能基础研究领域的国际竞争力 [6] 公司背景与战略 - 智源研究院自2020年启动“悟道”大模型研究,持续深耕原始创新 [6]

智源多模态大模型Emu3首登《自然》 - Reportify