攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱
快手快手(HK:01024) 量子位·2025-12-25 08:27

文章核心观点 - 由香港大学与快手可灵团队联合研发的MemFlow模型,通过创新的流式自适应记忆机制,解决了AI生成长视频时存在的叙事不连贯、角色特征遗忘与混淆等关键问题,将AI视频生成从“片段拼接”推向“故事编写”的新高度 [2][3][26][27] 技术背景与现有问题 - 当前主流AI长视频生成采用“分块生成”策略,但如何让后续片段精准记忆前面内容存在巨大技术鸿沟 [4] - 现有解决方案存在明显局限:“只记开头”策略在故事发展引入新角色或场景时会迷失;“一刀切”压缩策略会丢失关键细节;“各自为政”的流程缺乏全局一致性 [5] - 这些僵化、非自适应的记忆策略无法满足交互式创作中流动、不可预测的叙事需求,是导致长视频生成一致性差的主要原因 [6] MemFlow的核心创新与优势 - 核心创新在于建立了一套动态、以语义为桥梁的记忆系统,而非依赖死板、固定的记忆 [7] - 具备长时记忆能力:即使在长视频中存在场景切换、镜头变换或角色暂时消失等复杂情况,也能记住每个主体的核心视觉特征,维持视觉一致性 [8] - 确保叙事连贯性:在涉及多个主体的叙事中,能避免错误重复引入角色或发生主体混淆,能准确理解并延续用户引入新主体后的叙事,让故事流畅推进 [9] - 核心技术设计包括叙事自适应记忆(NAM)与稀疏记忆激活(SMA):NAM能根据当前提示词智能检索最相关的视觉记忆;SMA则只激活最关键信息以提升效率,在一致性、质量和计算开销间取得平衡 [11] 定量分析结果 - 在“多提示词60秒长视频生成”任务中,MemFlow在VBench-Long评估体系下的质量总分为85.02,美学小分为61.07,均为所有对比模型中最高分 [13][14] - 在衡量核心能力的一致性评分上,MemFlow取得96.60的高分,处于领先位置 [17] - 通过逐段评估的CLIP分数显示,在视频后半段(如40-60秒),许多模型因误差累积导致语义一致性明显下滑,而MemFlow的分数能持续保持较高水平,证明了其动态记忆机制在维持长期叙事一致性方面的有效性 [15] - 消融实验表明,MemFlow采用的“NAM+SMA”策略,在主体一致性(98.01)和背景一致性(96.70)上均优于“无记忆”或仅“记住第一段”的方案,同时实现了比采用完整记忆库更高的运行效率(吞吐量FPS=18.7) [17][18] 定性分析结果 - 在引入“一位穿着休闲毛衣的女士”的多镜头场景中,MemFlow成功在多个镜头中维持了同一人物形象,避免了其他模型出现的人物外貌不一致或重复引入主体的问题 [19] - 在处理角色互动时(如沙滩上的孩子与小狗、家庭装饰圣诞树场景),MemFlow能确保核心角色在多段视频中保持一致,而基线模型则出现了引入多余或不一致新角色、质量漂移和主体遗忘等问题 [21] - 视觉对比直观证明了动态记忆的必要性:“无记忆”版本出现场景不一致;“只记第一段”方案无法保持后续新引入人物特征;只有MemFlow能平滑承接剧情并保证主体一致性 [23] 效率与综合表现 - MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比,性能损耗极小 [25] - 该模型在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA(当前最优)水平 [25]

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱 - Reportify