Workflow
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
AI前线·2025-11-01 13:33

2024 年 10 月,智源研究院发布了全球首个原生多模态世界模型悟界·Emu3,该模型只基于下一个 token 预测,无需扩散模型或组合方法,实现图像、 文本、视频的大一统。模型一经上线便在技术社区引发了热议。 一年后,智源发布悟界·Emu3.5,在"Next-Token Prediction"范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的"Next-State Prediction (NSP)",获得了可泛化的世界建模能力。 智源研究院院长王仲远表示,世界模型的核心是预测下一个时空状态,这种预测对具身智能至关重要,且不局限于视频或图像形式。他解释道,人类面 对真实世界场景时,会形成多模态理解(如看到靠边的咖啡会预判掉落风险),机器人执行相关操作(如抓取咖啡)时,需要精准把控力度、方向等细 节。 Emu3.5 在各方面能力上实现了全面提升。它具备三大特点:一是从意图到规划,模型能够理解高层级的人类意图(如"如何制作一艘宇宙飞船""如何做 咖啡拉花"),并自主生成详细、连贯的多步骤行动路径;二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理 动态、时空演化 ...