Workflow
美团首个视频大模型开源,速度暴涨900%
36氪·2025-10-27 17:13

模型发布与核心特性 - 公司开源其首款视频生成大模型LongCat-Video,旨在以统一架构支持文生视频、图生视频及视频续写三种能力 [1] - 模型通过多任务联合训练机制处理零帧、单帧及多帧条件输入,原生支持输出5分钟级别长视频,并保持较高的时间一致性与视觉稳定性 [1] - 模型采用"粗到细"两阶段生成策略,结合块稀疏注意力机制和模型蒸馏,使视频生成推理速度提升至原来的10.1倍,提速幅度超900% [1][12][13] 技术架构与训练方法 - 模型采用基于Diffusion Transformer的单流三维结构,融合扩散模型生成能力与Transformer长时序建模优势,并使用3D RoPE位置编码 [7] - 通过VAE将视频像素压缩成潜空间token,整体压缩率高达4×16×16倍,文本输入由umT5多语言编码器处理以支持中英文双语 [7] - 训练采用三阶段流程:基于Flow Matching框架的渐进式预训练、监督微调及基于组相对策略优化的强化学习,以提升生成质量 [9][10] 性能表现与基准测试 - 在VBench公开基准测试中,模型总得分达62.11%,仅次于Veo3和Vidu Q1,其中"常识理解"项以70.94%的得分位居所有开源模型第一 [2][20] - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越PixVerse-V5和Wan2.2等模型 [17] - 在图生视频任务中,模型画面细节丰富、风格真实,但在图像一致性和动作连贯性上仍有改进空间 [19] 战略定位与未来展望 - 该模型是公司开发"世界模型"的第一步,高效的长视频生成能解决世界模型中的渲染问题 [22] - 公司计划在视频生成中更好地建模物理知识,集成多模态记忆,并融入大语言模型和多模态大模型的知识 [22] - 模型生成的机器人操作、汽车驾驶等画面,预示其有望与公司在机器人、自动驾驶领域的业务布局产生协同效应 [22]