长视频生成 - 财报，业绩电话会，研报，新闻

长视频生成

搜索文档

36氪· 2025-09-05 16:41

核心观点 - 牛津大学团队提出VMem（Surfel-Indexed View Memory）技术，通过基于3D几何的记忆索引替代传统的短窗口上下文，在视频/多视图生成中实现了更强的长时一致性、更低的资源消耗和更快的生成速度 [1] 技术原理与创新 - **几何记忆目录**：将过去生成的视图按3D表面元素（surfel）索引，每个surfel记录“哪几帧见过我”，以此构建显式、可查询、几何对齐的外部记忆 [2][10] - **相关性检索**：面对新视角时，通过渲染surfel并统计每个像素投票到的“出现过的帧编号”，挑选出现频率最高的Top-K帧作为参考上下文，相关性度量基于几何可见性而非时间或距离 [5][7] - **即插即用模块**：该记忆模块可接入如SEVA等图像集生成骨干模型，将上下文帧数从K=17减少到K=4仍能保持指标，实现高效生成 [4] 性能表现 - **生成速度**：在RTX 4090上，VMem结合LoRA微调的K=4/M=4版本实现4.2秒/帧的生成速度，比常规21帧上下文的管线快约12倍（对比50秒/帧）[1][17] - **长期一致性指标**：在标准长期设置（>200帧）评测中，VMem (K=17) 在PSNR（14.09）、SSIM（0.227）、FID（23.56）等关键指标上优于或接近SEVA (K=17) 等基线模型 [13] - **回环轨迹评测**：在团队提出的回环轨迹评测中，VMem (K=17) 在PSNR（18.15）、LPIPS（0.304）、SSIM（0.377）上显著领先于LookOut（PSNR 8.41）、GenWarp（PSNR 11.13）等对比方法，回到起点时外观与布局更一致 [14][15] 应用价值与优势 - **解耦记忆与计算**：记忆容量与生成步数解耦，跨数百步仍能稳定回访同一地点与外观，解决了传统隐式状态易遗忘早期细节的问题 [10][16] - **提升计算效率**：将“看很多不相干的历史帧”变为“只看与当前表面相关的少量关键帧”，大幅缩小了上下文窗口与算力需求 [16] - **增强可解释性与鲁棒性**：基于surfel可见性投票的检索策略相比基于最近帧、相机距离或FOV重叠的方法更可靠，对几何误差相对更鲁棒，且记忆可解释、可按区域/密度/热度进行裁剪 [16][17] 技术集成前景 - **作为外部记忆**：可作为Key-Value存储接入现有世界模型，Key为surfel几何属性，Value为出现过该surfel的帧与特征，供模型在预测前检索融合 [10] - **作为检索前端**：可作为视频/多视图生成主干网络的前端，将“上下文选择”外包给几何索引，减轻主干网络负担 [10] - **用于强化学习与具身智能**：可作为共享记忆供“世界模型+策略”共同读写，辅助世界模型进行长期一致模拟，并帮助策略进行定位、导航与回忆 [11]

长视频生成

记忆增稳

VMem（Surfel-Indexed View Memory）

长视频生成

记忆增稳

VMem（Surfel-Indexed View Memory）

用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

搜狐财经· 2025-09-02 13:45

技术突破 - 字节Seed与斯坦福等机构研究人员推出新模型MoC，可将生成长视频的计算量降低85% [1] - 使用MoC机制生成一分钟480P视频仅需2.32×10¹²FLOPs，而基线模型需要1.66×10¹³FLOPs [3] - 在多镜头64秒480P视频生成中，MoC仅消耗2.3×10¹²FLOPs，相比基线模型的1.7×10¹³FLOPs节省约86% [3] - 在单镜头8秒短片测试中，MoC计算量为4.1×10⁹FLOPs，较基线的1.9×10¹⁰FLOPs减少约78% [3] 技术原理 - 团队将长视频生成本质定义为长上下文记忆问题，将视频生成重新定义为上下文检索任务 [1] - MoC采用稀疏注意力机制作为有效的长期记忆检索引擎，核心是"可训练稀疏路由"机制 [1][4] - 技术实现包括内容对齐分块、动态top-k路由以及防止信息滞留的时间掩码约束 [6] - MoC通过跨模态链接保证视觉token访问完整文本提示，通过镜头内链接为稀疏图提供稳定下界 [7] 生成效果 - 模型能生成分钟级长视频，在56秒写实场景视频中保持人物外貌、衣着特征和场景物体的一致性 [1][3] - 在长达一分半的卡通场景视频中也能保持前后一致性 [3] - 在主题一致性、背景一致性、动作连贯性、图像质量等性能指标上均优于基线模型 [3]

Mixture of Contexts（MoC）

Mixture of Contexts（MoC）

用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

量子位· 2025-09-02 12:17

技术突破 - 字节Seed与斯坦福等机构推出新模型，使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts（MoC）稀疏注意力机制，将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs，较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs，节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs，减少78%[13] - 所有性能指标（主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920）均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块，提升检索精度[19] - 采用动态top-k路由机制，使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边，防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图，提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核，支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行，保障计算效率[20]

长视频生成

稀疏注意力机制

人工智能

Mixture of Contexts（MoC）

长视频生成

稀疏注意力机制

人工智能

Mixture of Contexts（MoC）