Workflow
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位·2025-10-30 18:31

模型概述 - 北京智源人工智能研究院发布最新开源原生多模态世界模型悟界·Emu3.5 [1] - 模型能够一网打尽图、文、视频任务,具备画图改图、生成图文教程、增强视频物理真实性等功能 [2] - 模型展现出高精度操作能力,例如一句话消除手写痕迹和第一视角漫游动态3D世界 [3] 行业背景与竞争格局 - AI迭代速度正在刷新所有人的认知,文生视频赛道几乎每月都有新技术出现 [5][6] - AI视频的逼真度和时长持续提升,但当前竞争焦点已从“像不像”转向“懂不懂”物理世界规律 [7][8] - 行业需解决的核心问题是模型是否理解物体移动后的空间变化、转身后场景的持续性等动态逻辑 [9] 核心技术能力 - Emu3.5生成作品具有极强连贯性和逻辑性,显著增强模拟动态物理世界的能力 [11] - 模型支持第一人称视角进入虚拟世界,动态构建移动或转身后的场景,全程保持空间一致性 [11] - 能够进行高精度可控图像编辑,如根据指令将草图转化为3D模型并完成3D打印、上色等完整流程 [16][26] - 支持多图多轮指令的复杂图像编辑,主体一致性和风格保持能力达业界顶尖水平 [29] - 模型在文本渲染和多模态交错生成任务上表现亮眼,性能媲美甚至超越Gemini-2.5-Flash-Image [18] 技术架构与创新 - Emu3.5参数量为34B,基于Decoder-only Transformer框架,统一所有任务为下一状态预测 [31] - 使用多模态分词器将文本和图像转换为离散Token序列,实现多任务处理 [31] - 在超过10万亿Token的多模态数据上预训练,主力数据为互联网视频的连续帧和转录文本 [32] - 视觉分词器基于IBQ框架,拥有13万视觉词汇表,集成扩散解码器支持2K分辨率高保真图像重建 [33] - 采用有监督微调和大规模多模态强化学习进行优化,使用复杂奖励系统提升模型质量 [34] - 通过离散扩散适配技术将推理速度提升近20倍,解决自回归模型生成图像慢的问题 [35] 应用场景与定位 - 模型定位为世界模型基座,开辟AI领域全新赛道,致力于构建理解物理规律的智能基座 [20][21] - 核心能力包括理解长时序、空间一致序列,模拟虚拟世界中的探索和操作,如逐步完成“整理桌面”任务 [23][24][28] - 应用场景覆盖生成视觉故事、第一视角参观场景(如客厅、火星开卡丁车等) [12][14][18] - 开源策略允许全球开发者直接使用模型,赋能千行百业实际应用,想象空间巨大 [36][37]