AI长视频生成 - 财报，业绩电话会，研报，新闻

AI长视频生成

搜索文档

攻克长视频生成记忆难题：港大与快手可灵MemFlow设计动态自适应长期记忆，告别快速遗忘与剧情错乱

36氪· 2025-12-25 15:54

行业技术背景与痛点 - 当前交互式长视频生成存在“金鱼记忆”式顽疾，表现为角色特征在切换提示词后出现“面目全非”或角色混淆，导致叙事“崩塌”[1] - 主流长视频生成采用“分块生成”策略，但存在技术鸿沟，难以让后续片段精准记忆先前内容[3] - 现有解决方案存在明显局限：1）“只记开头”策略在场景或角色变化时迷失[3]；2）“一刀切”压缩策略丢失关键细节，导致主体特征遗忘和视觉质量漂移[3]；3）“各自为政”流程导致视频缺乏全局一致性[3] - 上述僵化、非自适应的记忆策略无法满足交互式创作中流动、不可预测的叙事需求，是导致交互式长视频生成一致性差的核心原因[4] MemFlow技术方案与核心优势 - 该方案是一种创新的流式自适应记忆机制，旨在赋予AI长时记忆与叙事连贯性，以解决长视频生成的叙事难题[2] - 其核心优势体现在两方面：1）**长时记忆**：即使在场景切换、镜头变换或角色暂时消失等复杂情况下，也能记住每个主体的核心视觉特征[5]；2）**叙事连贯性**：能从全局理解剧情，避免错误重复引入角色或发生主体混淆，确保多主体故事线清晰发展[6] - 技术核心在于两大设计：**叙事自适应记忆（NAM）**：根据当前提示词智能检索最相关的视觉记忆，在有限容量下优先保留最相关信息[8]；**稀疏记忆激活（SMA）**：只激活记忆中最关键信息进行计算，避免信息过载并提升生成速度[8] - 该方案标志着AI视频生成技术从“片段拼接”向“故事编写”演进，使AI从“概念视频画师”蜕变为能驾驭复杂剧情的“叙事导演”[22] 定量性能评估 - 在“多提示词60秒长视频生成”任务中，MemFlow在VBench-Long评估体系下，质量总分取得85.02分，美学小分取得61.07分，均为所有对比模型中的最高分[10][11] - 在衡量核心能力的一致性评分上，MemFlow取得96.60的高分，处于领先位置[13] - 通过逐段评估文本匹配度的CLIP分数显示，在视频后半段（如40-60秒），许多模型因误差累积导致分数下滑，而MemFlow能持续保持较高水平（如40-50秒:24.90, 50-60秒:24.22），验证了其动态记忆机制对维持长期叙事一致性的有效性[10][12] - 消融实验显示，MemFlow采用的“NAM+SMA”策略，在主体一致性（98.01分）和背景一致性（96.70分）上均优于“无记忆”或仅“记住第一段（Frame Sink）”的方案，同时实现了比采用完整记忆库更高的运行效率（吞吐量18.7 FPS）[13][14] 定性效果与效率评估 - 视觉对比显示，MemFlow能成功在多镜头场景中维持同一角色形象，避免其他模型出现的人物外貌不一致或重复引入主体的问题[15] - 在处理角色互动时，MemFlow能确保核心角色在多段视频中保持一致，而基线模型LongLive等则存在引入多余或不一致新角色、质量漂移和主体遗忘等问题[17] - 对记忆机制的视觉对比表明，“无记忆”版本会出现场景不一致，“记住第一段”方案无法保持新引入人物特征，只有MemFlow能平滑承接剧情并保证主体一致性[19] - 在效率上，MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度，与无记忆基线模型（FPS=23.5）相比性能损耗极小，同时在一致性、美学评分和文本对齐度等多项关键指标上达到SOTA水平[21]

AI长视频生成

动态记忆机制

Artificial Intelligence

MemFlow

AI长视频生成

动态记忆机制

Artificial Intelligence

MemFlow

突破长视频生成瓶颈：南大、TeleAI推出全新AI生成范式MMPL，让创意一镜到底

机器之心· 2025-08-25 14:08

技术突破 - 南京大学联合TeleAI推出长视频自回归生成新范式Macro-from-Micro Planning（MMPL），采用"宏观规划、微观执行"双层生成架构，解决长视频生成中的时域漂移和串行瓶颈问题[3][4][12] - MMPL实现分钟级高质量长视频稳定生成，生成效率显著提升，结合蒸馏加速技术后预览帧率最高可达约32 FPS，接近实时交互体验[5][13] - 在统一测试集上显著优于MAGI、SkyReels、CausVid、Self Forcing等现有方法，在视觉质量、时间一致性和稳定性方面全面领先[15] 技术原理 - 微观规划阶段基于首帧联合预测稀疏关键未来锚点帧（包括早期邻近帧、中部关键帧和末端结束帧），在同一次去噪过程中联合生成，构成片段的"视觉骨架"[20][21][26] - 宏观规划通过分段稀疏连接设计，将各片段末端锚点作为下一段起始条件，使误差累积从T帧级别降低至S段级别（S ≪ T），从根本上缓解长程漂移问题[22][23] - 并行填充阶段所有片段可完全独立生成，支持多GPU并行处理，结合自适应工作负载调度机制实现规划与填充的重叠执行，大幅提升资源利用率[30][31][32] 性能表现 - 支持20秒、30秒乃至1分钟的连贯叙事，片段衔接自然，无明显色彩漂移、闪烁或结构崩坏[19] - 生成整体吞吐量大幅提升，提供最小内存峰值模式和最大吞吐量模式两种运行策略，在内存、延迟与吞吐量之间灵活权衡[32][35][40] - 将长视频生成从"接龙式绘画"转变为"系统性制片"，使AI具备从整体出发的规划能力，理解情节推进、协调画面连贯性、控制运动节奏[13][36][37]

AI长视频生成

人工智能

Macro-from-Micro Planning（MMPL）

AI长视频生成

人工智能

Macro-from-Micro Planning（MMPL）