美团LongCat-Video正式发布并开源视频推理速度提升至10.1倍

模型发布与战略意义 - 公司发布并开源LongCat-Video视频生成模型，在文生视频和图生视频基础任务上达到开源最先进水平 [1] - 模型通过原生视频续写任务预训练，实现分钟级长视频连贯生成，保障跨帧时序一致性与物理运动合理性 [1] - 视频生成模型被视为构建“世界模型”的关键路径，是探索“世界模型”的第一步，未来将融入公司自动驾驶、具身智能等深度交互业务场景 [1] 核心技术特点 - 模型基于Diffusion Transformer架构，通过“条件帧数量”实现任务区分，原生支持文生视频、图生视频和视频续写三大核心任务，形成完整任务闭环 [2] - 依托视频续写预训练，模型可稳定输出5分钟级别长视频且无质量损失，从根源规避色彩漂移、画质降解、动作断裂等行业痛点 [2] - 结合块稀疏注意力与条件token缓存机制，大幅降低长视频推理冗余，即便处理93帧及以上长序列也能兼顾效率与生成质量稳定 [2] - 通过二阶段粗到精生成、块稀疏注意力和模型蒸馏三重优化，视频推理速度提升至10.1倍，实现效率与质量的最优平衡 [2] 模型性能评估 - 136亿参数的视频生成基座模型在文生视频和图生视频两大核心任务中，综合性能均达到当前开源领域最先进水平 [3] - 在文本对齐度、运动连贯性等关键指标上展现显著优势，性能通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估 [3] - 在VBench等公开基准测试中，LongCat-Video在参评模型中整体表现优异 [3]