登上Nature!智源研究院推出AI全能选手——Emu3,一统多模态学习
生物世界·2026-01-31 11:05

研究背景与意义 - 北京智源人工智能研究院在《Nature》正刊发表了一项关于多模态大模型Emu3的研究,这是我国科研机构主导的大模型成果首次在《Nature》正刊发表[2] - 多模态学习指AI同时处理文本、图像、视频等多种信息的能力,开发统一的算法一直是该领域的“圣杯”[6] - Emu3模型基于“预测下一个词元”的简单核心理念,统一了大规模文本、图像和视频的多模态学习,对构建可扩展、统一的多模态智能系统具有重要意义[3][6] 技术原理与框架 - Emu3的秘诀在于“词元化”,它使用统一的视觉分词器将图像或视频片段压缩成离散词元序列,例如将一张512x512图像转为4096个词元,文本则通过BPE编码为词元,所有词元被输入Decoder-Only的Transformer模型,通过预测下一个词元来学习多模态关系[7] - 该设计消除了对扩散模型或外部编码器的依赖,实现了端到端训练[7] - 训练过程分为三个阶段:1) 使用大规模多模态数据进行预训练,并平衡文本和视觉词元的损失权重;2) 针对生成任务进行质量微调,并结合人类偏好优化提升输出质量;3) 推理时支持分类器无关引导,实现低延迟、高通量的生成[10][11] - 研究在训练中发现了稳定的规模定律,模型性能随数据量和参数增加呈幂律提升,这意味着其扩展可预测[11] 模型性能表现 - 在图像生成任务中,在MSCOCO、GenEval等基准上,Emu3的人类偏好得分达70.0,优于Stable Diffusion v1.5的59.3和SDXL的66.9[13] - 在视频生成任务中,在VBench评估中,Emu3得分81.0,与主流扩散模型相当,例如Open-Sora-1.2的79.8,且能预测未来帧,实现视频扩展[13] - 在视觉语言理解任务中,在12个基准测试中平均得分62.1,媲美LLaVA-1.6的61.8等组合模型[13] - 在机器人操作任务中,在CALVIN模拟环境中,Emu3将语言、视觉和动作表示为统一词元序列,完成5个连续任务的成功率达87.0%[13] 研究影响与未来展望 - Emu3证明了“预测下一个词元”这种单一目标足以统一多模态学习,无需复杂设计,具有简单性、可扩展性和通用性[15][17] - 该框架有望推动原生多模态助手、世界模型以及具身智能等方向的发展[15] - 研究团队在Emu3基础上推出了Emu3.5,其通过大规模长时序视频训练,学习了时空与因果关系,展现出随规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了从“预测下一个词元”到“预测下一个状态”的范式升级[15]