Workflow
悟界・Emu3.5
icon
搜索文档
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
机器之心· 2025-10-30 16:52
模型发布与定位 - 北京智源人工智能研究院发布多模态系列模型最新力作“悟界・Emu3.5”,并将其定义为“多模态世界大模型”[3][4] - 该模型被视为继语言预训练、推理和后训练之后的人工智能第三条Scaling范式,即“多模态Scaling范式”[5] - 公司相信“世界大模型”将开启全新的探索方向,此次发布不仅是常规迭代,更是一次方向性突破[6] 核心技术架构与创新 - 模型采用极简架构,基于一个340亿参数的稠密Transformer模型,创新性地将模型目标统一为“下一状态预测”[11] - 提出“离散扩散自适应”技术,将每张图像的推理速度提升近20倍,且几乎没有性能损失,使自回归模型在推理速度和生成质量上可与顶级闭源扩散模型媲美[6][24] - 模型具备“原生多模态”特性,能生成交错的视觉-语言输出,实现文本、图像、视频三种模态数据的理解和生成大一统[10][11] 训练数据与流程 - 模型在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,以学习现实物理世界的动态规律[5][16] - 训练流程分为四个核心阶段:大规模预训练(分两步进行,分别在10万亿和3万亿Token的数据上)、监督微调(使用1500亿样本的高质量数据集)、大规模多模态强化学习以及高效自回归推理加速[17][21][22][24] - 使用视频数据作为训练主体,因其能教会模型现实世界的物理动态、时空连续性和因果规律,而静态图文对只能识别“这是什么”[16] 模型能力与表现 - 模型展现出高级功能,包括生成图文并茂的故事、长时程视觉指导、复杂图像编辑、世界探索和具身操作等[5][35][36] - 在图像编辑任务上达到与谷歌Gemini-2.5-Flash-Image相当的性能,并在文本渲染和交错内容生成任务上显著超越对手[6][28] - 具备视觉叙事能力,能生成逻辑连贯、画面风格统一的系列图文卡片;具备视觉指导能力,可生成分步的、带有视觉示例的教程[11][13] 行业影响与未来应用 - 模型标志着多模态模型从执行单一任务向能够进行连续、多步、跨模态创造的“世界学习器”迈出关键一步,为构建更接近人类自然学习方式的世界模型提供了范例[14][44] - 其世界建模与探索能力为具身智能领域补全关键拼图,可作为无限数据生成器,生成虚拟环境、任务和分步规划数据,助力训练更通用的具身智能体[35][36][39][41] - 公司宣布后续将开源Emu3.5,以支持全球AI研究社区的进一步研究,为其提供一个强大的新基座[7][45]