刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
机器之心·2025-10-30 16:52
机器之心发布 机器之心编辑部 当业界还在为自回归与扩散这两种主流技术路线孰优孰劣而激辩时,答案可能已经显现。 今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5 。 这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 "多模态世界大模型"(Multimodal World Foudation Model)。 通过在超过 10 万亿的多模态 Token(主要源自互联网视频,总时长约 790 年)上进行端到端预训练,Emu3.5 得以学习并内化了现实物理世界的动态规律。 这种原生的世界建模能力,是 Emu3.5 与其他生成模型的根本区别,并自然地外化为一系列高级功能:不仅能生成图文并茂的故事,更展现出在长时程视觉指导、 复杂图像编辑、世界探索和具身操作等任务上的强大潜力。 不仅如此,Emu3.5 首次揭示了 "多模态 Scaling 范式" 的存在,这是继语言预训练、推理和后训练之后,人工智能的第三条 Scaling 范式。也是团队将其称为 "世界 大模型"(World Foundation Model)的原因。 智源在悟道 1.0 发布会上率先提出 "大 ...