生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持
36氪·2025-12-24 15:58
【导读】视频生成模型总是「记性不好」?生成几秒钟后物体就变形、背景就穿帮?北大、中大等机构联合发布EgoLCD,借鉴人类「长短时记忆」机 制,首创稀疏KV缓存+LoRA动态适应架构,彻底解决长视频「内容漂移」难题,在EgoVid-5M基准上刷新SOTA!让AI像人一样拥有连贯的第一人称视 角记忆。 随着Sora、Genie等模型的爆发,视频生成正从「图生动」迈向「世界模拟器」的宏大目标。 然而,在通往「无限时长」视频生成的路上,横亘着一只拦路虎——「内容漂移」(Content Drift)。 你是否发现,现有的视频生成模型在生成长视频时,往往也是「金鱼记忆」:前一秒还是蓝色瓷砖,后一秒变成了白色墙壁;原本手里的杯子,拿着拿着 就变成了奇怪的形状; 对于第一人称(Egocentric)视角这种晃动剧烈、交互复杂的场景,模型更是极其容易「迷失」。 生成长视频不难,难的是「不忘初心」。 近日,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,提出了一种全新的长上下文扩散模型EgoLCD,不仅引入了「类脑的长短时 记忆」设计,还提出了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时「记住」场景 ...