生成不遗忘，「超长时序」世界模型，北大EgoLCD长短时记忆加持

行业技术突破 - 视频生成行业面临长视频“内容漂移”的核心挑战，即模型在生成过程中难以保持物体和背景的一致性，尤其是在第一人称视角等复杂场景下[1] - 北京大学、中山大学、浙江大学、中科院和清华大学的研究团队联合发布全新长上下文扩散模型EgoLCD，旨在解决长视频生成中的内容漂移问题[2] - EgoLCD在EgoVid-5M基准测试中，在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型[3] 核心技术架构 - EgoLCD首创了模仿人类大脑的“长短时记忆”系统，长期记忆负责全局稳定性，短期记忆负责快速适应局部变化[5] - 长期记忆采用稀疏KV缓存机制，只存储和检索关键的“语义锚点”，显著降低显存占用并锁定全局一致性[11] - 短期记忆结合注意力机制与LoRA作为隐式记忆单元，以快速捕捉当前视角的剧烈变化[11] - 模型引入了结构化叙事提示方案，在训练时使用GPT-4o生成详尽的帧级描述，在推理时通过检索前序提示来引导生成，确保连贯性[7][8] 模型性能表现 - 在感知质量指标上，EgoLCD在图像质量上得分为0.6852，运动平滑度得分为0.9956，美学质量得分为0.6047，背景一致性得分为0.9588，主体一致性得分为0.9597，清晰度得分为0.7551[9] - 在NRDP指标上，EgoLCD在运动、美学、背景和主体的一致性上表现优异，得分分别为0.0119、0.9618、0.2945和0.0844[9] - 在与其他模型的对比中，EgoLCD的CD-FVD指标为187.94，语义一致性为0.291，动作一致性为0.510，清晰度得分为0.530，运动平滑度为0.992，运动强度为20.732，各项指标均优于SVD、DynamiCrafter和OpenSora等模型[12] - 实验显示，EgoLCD在NRDP-Subject和NRDP-Background指标上取得压倒性优势，漂移率极低[13] - 模型能够生成长达60秒的连贯视频，人物衣着和背景细节始终保持一致[15] 行业应用与前景 - EgoLCD被视为一个“第一人称世界模拟器”，其生成长时程、高一致性视频的能力，可为具身智能提供海量训练数据，模拟复杂的物理交互和长序列任务[15] - 该技术被认为是向构建具身智能世界模型迈出的关键一步，让通过视频教会机器人理解世界的梦想变得更清晰[3][15]