攻克长视频生成记忆难题：港大与快手可灵MemFlow设计动态自适应长期记忆，告别快速遗忘与剧情错乱

文章核心观点 - 由香港大学与快手可灵团队联合研发的MemFlow模型，通过创新的流式自适应记忆机制，解决了AI生成长视频时存在的叙事不连贯、角色特征遗忘与混淆等关键问题，将AI视频生成从“片段拼接”推向“故事编写”的新高度 [2][3][26][27] 技术背景与现有问题 - 当前主流AI长视频生成采用“分块生成”策略，但如何让后续片段精准记忆前面内容存在巨大技术鸿沟 [4] - 现有解决方案存在明显局限：“只记开头”策略在故事发展引入新角色或场景时会迷失；“一刀切”压缩策略会丢失关键细节；“各自为政”的流程缺乏全局一致性 [5] - 这些僵化、非自适应的记忆策略无法满足交互式创作中流动、不可预测的叙事需求，是导致长视频生成一致性差的主要原因 [6] MemFlow的核心创新与优势 - 核心创新在于建立了一套动态、以语义为桥梁的记忆系统，而非依赖死板、固定的记忆 [7] - 具备长时记忆能力：即使在长视频中存在场景切换、镜头变换或角色暂时消失等复杂情况，也能记住每个主体的核心视觉特征，维持视觉一致性 [8] - 确保叙事连贯性：在涉及多个主体的叙事中，能避免错误重复引入角色或发生主体混淆，能准确理解并延续用户引入新主体后的叙事，让故事流畅推进 [9] - 核心技术设计包括叙事自适应记忆（NAM）与稀疏记忆激活（SMA）：NAM能根据当前提示词智能检索最相关的视觉记忆；SMA则只激活最关键信息以提升效率，在一致性、质量和计算开销间取得平衡 [11] 定量分析结果 - 在“多提示词60秒长视频生成”任务中，MemFlow在VBench-Long评估体系下的质量总分为85.02，美学小分为61.07，均为所有对比模型中最高分 [13][14] - 在衡量核心能力的一致性评分上，MemFlow取得96.60的高分，处于领先位置 [17] - 通过逐段评估的CLIP分数显示，在视频后半段（如40-60秒），许多模型因误差累积导致语义一致性明显下滑，而MemFlow的分数能持续保持较高水平，证明了其动态记忆机制在维持长期叙事一致性方面的有效性 [15] - 消融实验表明，MemFlow采用的“NAM+SMA”策略，在主体一致性（98.01）和背景一致性（96.70）上均优于“无记忆”或仅“记住第一段”的方案，同时实现了比采用完整记忆库更高的运行效率（吞吐量FPS=18.7） [17][18] 定性分析结果 - 在引入“一位穿着休闲毛衣的女士”的多镜头场景中，MemFlow成功在多个镜头中维持了同一人物形象，避免了其他模型出现的人物外貌不一致或重复引入主体的问题 [19] - 在处理角色互动时（如沙滩上的孩子与小狗、家庭装饰圣诞树场景），MemFlow能确保核心角色在多段视频中保持一致，而基线模型则出现了引入多余或不一致新角色、质量漂移和主体遗忘等问题 [21] - 视觉对比直观证明了动态记忆的必要性：“无记忆”版本出现场景不一致；“只记第一段”方案无法保持后续新引入人物特征；只有MemFlow能平滑承接剧情并保证主体一致性 [23] 效率与综合表现 - MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度，与无记忆的基线模型相比，性能损耗极小 [25] - 该模型在一致性、美学评分和文本对齐度等多项关键指标上，均达到SOTA（当前最优）水平 [25]