智源悟界·Emu3.5发布，开启“下一个状态预测”！王仲远：或开启第三个 Scaling 范式

模型核心创新与定位 - 悟界·Emu3.5是全球首个基于"Next-State Prediction"范式的原生多模态世界模型，通过自回归架构实现对多模态序列的预测，模拟人类自然学习方式[2] - 模型核心能力是预测下一个时空状态，这对于具身智能至关重要，使其能理解世界运行规律并进行因果推理[2] - 该模型代表了一项融合算法、工程架构、数据训练范式与模型思想的综合性原始创新，而非单一的算法或工程改进[9] 核心技术特点与能力 - 具备三大核心能力：从高层级人类意图自主生成详细连贯的多步骤行动路径、在统一框架内动态模拟世界并预测物理动态与长时程因果关系、作为泛化交互基础提供关键的认知基础[3] - 采用自回归架构实现多模态数据大一统，能够大规模复用现有计算基础设施，其Next Token可以是视觉和文字Token且性能无损[8][10] - 通过自研DiDA技术将自回归模型的推理速度提升20倍，实现了可媲美闭源系统最强图像生成的能力，大幅降低了原生多模态的成本[17][19] 训练方法与数据规模 - 训练分为两阶段：首先在约13万亿tokens上进行端到端预训练，随后在1500亿样本上进行有监督微调，再通过大规模强化学习提升多模态推理与生成能力[12] - 预训练消耗超过10T Token，大部分数据是长视频而非文字主导，使用了约6300万条视频，平均时长6.5分钟，总时长约790年，覆盖教育、娱乐、体育等多个领域[13] - 模型目前仅为340亿参数规模，所使用的视频数据仅占全互联网公开视频数据的不到1%，显示出巨大的Scaling up潜力[13] 性能表现与行业意义 - 在多项基准测试中，Emu3.5在Alignment指标上得分为0.902，Text指标上得分为0.994，Overall综合得分0.564，表现优于包括Gemini-2.5-Flash-Image（0.550）在内的其他主流模型[5] - 该模型首次证明了多模态领域存在Scaling可能性，开启了继语言预训练Scaling和后训练与推理阶段Scaling之后的第三个Scaling范式[6] - 与市面上多数采用组合式架构的模型相比，Emu系列的自回归架构可扩展性更强，避免了模型遗忘现象，并解决了Agent任务优化等企业落地难点[8]