世界模型有了开源基座Emu3.5，拿下多模态SOTA，性能超越Nano Banana

模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力包括画图改图、生成图文教程视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作能像智能体一样理解长时序、空间一致的序列模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术将图像推理速度提升近20倍解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练主力数据为互联网视频的连续帧和转录文本使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架拥有13万视觉词汇表并集成扩散解码器能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界用户移动和转身时能动态构建下一步场景全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程完美保留核心特征和神态 [13] - 支持生成分步教学指南如手把手教做菜、画画、种菜并能进行多图、多轮指令的复杂图像编辑主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹以及复杂任务如按照多步指令整理桌面 [1][22][24]