悟界·Emu3.5多模态世界大模型
搜索文档
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
当前多模态技术最大痛点在于实现真正的原生统一。主流方案中约60%的模型采用 "组合式架构"——通 过独立模块处理不同模态,再通过跨模态注意力机制交互。这种方式存在致命缺陷:模态间信息传递损 耗导致性能折损,且新增模态训练会干扰既有能力。对此,智源研究院院长王仲远告诉笔者,组合式模 型处理长视频时,文本理解准确率下降很多,视觉生成的时空一致性受损,而更严峻的是,这种架构难 以支撑复杂推理。 CSDN在今年对5款主流模型的评测显示,采用组合式架构的 Llama 3在"图文+语音"跨模态任务中,逻 辑断裂率高达28%,远高于采用原生统一架构的豆包V5.2(9%)。 日前,北京智源研究院发布悟界·Emu3.5多模态世界大模型,这款参数量达34B、训练数据包含790年视 频时长的模型,不仅通过自研 DiDA技术将推理速度提升20倍,更以"Next-State Prediction"范式验证了 多模态模型的世界建模能力。 这一突破并非孤立事件,而是全球技术演进的缩影:2024年中国多模态大模型市场规模已达138.5亿 元,同比增长67.3%,2025年预计攀升至236.8亿元。 与此同时,中国多模态大模型产业发展也在世界 ...