模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座 在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力 包括画图改图、生成图文教程 视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作 能像智能体一样理解长时序、空间一致的序列 模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架 单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中 性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术 将图像推理速度提升近20倍 解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务 通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练 主力数据为互联网视频的连续帧和转录文本 使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架 拥有13万视觉词汇表 并集成扩散解码器 能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习 使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界 用户移动和转身时能动态构建下一步场景 全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容 例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程 完美保留核心特征和神态 [13] - 支持生成分步教学指南 如手把手教做菜、画画、种菜 并能进行多图、多轮指令的复杂图像编辑 主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹 以及复杂任务如按照多步指令整理桌面 [1][22][24]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪·2025-10-30 19:56