Yume1.0
搜索文档
让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈
量子位· 2026-01-09 12:09
文章核心观点 - 视频生成领域的技术瓶颈正从追求画质转向构建具备长期记忆和强交互能力的“世界模型”,上海AI Lab联合多家机构开源的Yume项目通过其核心的时空信道联合建模(TSCM)架构,为解决长视频生成中的记忆与计算矛盾提供了工程化落地的可行路径,并展示了显著的性能提升 [1][2][3] Yume项目概述与定位 - Yume是一个持续迭代、完全开源的世界模型项目,旨在理解物理规律、具备长期记忆并支持实时交互,被视为通往通用人工智能(AGI)的关键路径 [3][4] - 项目已发布Yume1.0和Yume1.5版本,其中Yume1.0是第一个完全开源(包括数据、测试集、代码和权重)的面向真实世界的世界模型 [3] 核心技术创新:时空信道联合建模(TSCM) - TSCM是Yume1.5的核心架构创新,旨在解决长视频生成中的上下文爆炸和计算瓶颈问题,实现了近似恒定计算成本的全局记忆访问 [1][4][11] - 该框架通过统一的上下文压缩与线性注意力机制,避免了存储所有历史Token导致的GPU显存耗尽,以及生成时间随历史长度线性增加的问题 [5][15] - TSCM包含两个并行的压缩流:时空压缩与通道压缩,并通过特征融合层将两者提取的特征进行融合 [16][20] - **时空压缩**:通过对历史帧进行自适应时空下采样来减少Token数量,策略是近期的记忆清晰,远期的记忆模糊,例如对最近1-2帧采用(1,2,2)采样,对更早的帧采用(1,8,8)采样 [17][18] - **通道压缩**:将历史帧的通道维度从标准维度(如1024或768)强制压缩至96,配合线性注意力机制,使得计算量几乎恒定,不随历史信息增长而显著增加 [19][23] 数据策略 - 训练数据包括开源的Sekai数据集,该数据集覆盖全球750个城市,累计时长达5000小时的高质量第一人称(POV)视频数据 [8] - Yume1.0引入了量化相机轨迹方法,能将现实世界的运动转换为离散的键盘按键 [9] - Yume1.5额外引入了高质量的文本到视频(T2V)合成数据集,并为了生成特定“事件”,构建了专门的事件数据集 [10] - 事件数据集的构建通过两种方式:1) 人工构造,招募志愿者编写涵盖日常、科幻、奇幻、天气等四大类的事件描述来合成数据;2) 利用InternVL3-78B大模型对Sekai数据进行重标注,将背景描述改写为关注动作和事件的提示词 [14] 推理与训练加速 - 引入了类似于Self-Forcing的训练策略,在微调阶段让模型自己生成上一帧作为条件来预测当前帧,结合TSCM替换滑动窗口的kv cache,使得仅用64帧长度的训练即可外推到近半分钟的视频生成,训练高效 [24] - Yume1.0引入了OSV(一种对抗蒸馏方法)以加速扩散模型的采样 [24] - 通过提示词解耦与缓存策略优化推理效率:将提示词解耦为**事件描述**(仅在初始化或新指令时编码一次)和**动作描述**(词汇量有限固定,预先计算并缓存其T5Embedding),显著降低了文本编码器在实时推理中的计算占比 [25][27] - 定义了一套详细的键盘动作词汇表来控制视角移动,例如W/A/S/D控制前后左右移动,箭头和字母组合控制视角转动 [26] 性能表现 - **生成速度**:Yume1.5的生成时间从Yume1.0的572秒大幅缩短至8秒 [29] - **指令跟随(IF)能力**:Yume1.5的IF得分高达0.836,证明了其控制方法的有效性 [29] - **综合评分**:在多项指标上表现优异,例如场景一致性(SC)得分0.932,背景一致性(BC)得分0.985,图像质量(IQ)得分0.728 [29] - **消融研究验证**:移除TSCM改用简单的空间压缩后,指令跟随能力从0.836降至0.767,且TSCM使得自回归推理时间在8个block后保持稳定,不随上下文增加而增长 [30][32] 开源与易用性 - 项目全面开源,提供了论文、代码、主页和数据链接 [40] - 为了方便使用,Github主页提供了Windows下的一键启动方案来运行Web Demo,例如通过运行`run_oneclick_debug.bat`脚本,该程序已在RTX4090 Laptop GPU(16GB显存)上测试通过 [34][35] 当前局限与未来展望 - **物理逻辑缺失**:模型缺乏物理引擎支撑,偶发因果谬误(如倒行)及长周期细节漂移,TSCM仅起到缓解作用 [36] - **模型规模权衡**:当前使用5B参数模型以妥协实时性,为突破性能瓶颈(如迈向30B+规模),未来计划采用混合专家(MoE)架构以兼顾高性能与低延迟 [37] - 项目开源期望加速世界模型的研究,随着技术迭代,生成内容与真实内容的界限将愈发模糊 [38]