美团LongCat-Video正式发布并开源,支持高效长视频生成
产品发布与定位 - 美团LongCat团队于10月27日发布并开源视频生成模型LongCat-Video [2] - 该模型被定位为公司“世界模型”方向探索的重要一步 [8] 技术架构与功能 - 模型基于Diffusion Transformer架构,以“条件帧数量”区分任务,统一支持文本生成视频、图像生成视频和视频续写三类基础任务 [5] - 在预训练阶段引入原生视频续写任务,以提升长时序生成能力,可稳定生成分钟级长视频 [6] - 模型在跨帧时序一致性与物理运动合理性方面做了针对性优化,以减少色彩漂移、画质衰减与动作断裂等问题 [6] 性能表现与基准测试 - 在VBench 2.0基准测试中,模型总得分为62.11%,在开源模型中表现领先 [5] - 模型在文本对齐与运动连贯等指标上表现突出,其中常识性指标得分达70.94%,可控性指标得分达44.79% [5] - 团队称该模型在内部与公开基准测试中取得开源范围内的领先结果 [2] 效率优化与参数规模 - 模型结合块稀疏注意力与条件token缓存机制,以降低长序列推理冗余 [6] - 针对高分辨率、高帧率场景,采用“二阶段粗到精+块稀疏注意力+蒸馏”组合策略,据称推理速度较基线提升至约10.1倍 [6] - LongCat-Video基座模型的参数规模约为136亿参数 [6]