智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
AI前线·2025-11-01 13:33

模型核心创新与定位 - 悟界·Emu3.5是全球首个基于"Next-State Prediction"范式的原生多模态世界模型,通过自回归架构实现对多模态序列的预测,模拟人类自然学习方式[2] - 模型核心能力是预测下一个时空状态,这对于具身智能至关重要,使其能理解世界运行规律并进行因果推理[2] - 该模型代表了一项融合算法、工程架构、数据训练范式与模型思想的综合性原始创新,而非单一的算法或工程改进[9] 核心技术特点与能力 - 具备三大核心能力:从高层级人类意图自主生成详细连贯的多步骤行动路径、在统一框架内动态模拟世界并预测物理动态与长时程因果关系、作为泛化交互基础提供关键的认知基础[3] - 采用自回归架构实现多模态数据大一统,能够大规模复用现有计算基础设施,其Next Token可以是视觉和文字Token且性能无损[8][10] - 通过自研DiDA技术将自回归模型的推理速度提升20倍,实现了可媲美闭源系统最强图像生成的能力,大幅降低了原生多模态的成本[17][19] 训练方法与数据规模 - 训练分为两阶段:首先在约13万亿tokens上进行端到端预训练,随后在1500亿样本上进行有监督微调,再通过大规模强化学习提升多模态推理与生成能力[12] - 预训练消耗超过10T Token,大部分数据是长视频而非文字主导,使用了约6300万条视频,平均时长6.5分钟,总时长约790年,覆盖教育、娱乐、体育等多个领域[13] - 模型目前仅为340亿参数规模,所使用的视频数据仅占全互联网公开视频数据的不到1%,显示出巨大的Scaling up潜力[13] 性能表现与行业意义 - 在多项基准测试中,Emu3.5在Alignment指标上得分为0.902,Text指标上得分为0.994,Overall综合得分0.564,表现优于包括Gemini-2.5-Flash-Image(0.550)在内的其他主流模型[5] - 该模型首次证明了多模态领域存在Scaling可能性,开启了继语言预训练Scaling和后训练与推理阶段Scaling之后的第三个Scaling范式[6] - 与市面上多数采用组合式架构的模型相比,Emu系列的自回归架构可扩展性更强,避免了模型遗忘现象,并解决了Agent任务优化等企业落地难点[8]