字节Seed新模型
搜索文档
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
搜狐财经· 2025-09-02 13:45
技术突破 - 字节Seed与斯坦福等机构研究人员推出新模型MoC,可将生成长视频的计算量降低85% [1] - 使用MoC机制生成一分钟480P视频仅需2.32×10¹²FLOPs,而基线模型需要1.66×10¹³FLOPs [3] - 在多镜头64秒480P视频生成中,MoC仅消耗2.3×10¹²FLOPs,相比基线模型的1.7×10¹³FLOPs节省约86% [3] - 在单镜头8秒短片测试中,MoC计算量为4.1×10⁹FLOPs,较基线的1.9×10¹⁰FLOPs减少约78% [3] 技术原理 - 团队将长视频生成本质定义为长上下文记忆问题,将视频生成重新定义为上下文检索任务 [1] - MoC采用稀疏注意力机制作为有效的长期记忆检索引擎,核心是"可训练稀疏路由"机制 [1][4] - 技术实现包括内容对齐分块、动态top-k路由以及防止信息滞留的时间掩码约束 [6] - MoC通过跨模态链接保证视觉token访问完整文本提示,通过镜头内链接为稀疏图提供稳定下界 [7] 生成效果 - 模型能生成分钟级长视频,在56秒写实场景视频中保持人物外貌、衣着特征和场景物体的一致性 [1][3] - 在长达一分半的卡通场景视频中也能保持前后一致性 [3] - 在主题一致性、背景一致性、动作连贯性、图像质量等性能指标上均优于基线模型 [3]