美团发布并开源视频生成模型：部分参数比肩谷歌最先进模型Veo3

模型发布与技术定位 - 美团LongCat团队发布并开源视频生成模型LongCat-Video，该模型在文生视频和图生视频基础任务上达到开源SOTA水平[1] - 模型采用多任务联合训练机制，可在同一框架内处理零帧、单帧及多帧条件输入，区别于以往针对单一任务训练的模型[1] - 该模型的推出被视为公司迈向构建“世界模型”目标的关键一步，未来将与自动驾驶、具身智能等业务相结合[3] 核心技术突破与性能 - 模型原生支持生成长达5分钟、720p分辨率、30帧率的高清视频，重点解决了长时序生成中画面漂移、色彩偏移等难题[3][6] - 通过视频续写预训练、块稀疏注意力等机制，模型保持了较高的时间一致性与视觉稳定性，生成视频动作流畅、镜头移动自然[3][6][9] - 采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化，视频推理速度提升至10.1倍，实现了效率与质量的最优平衡[6] 评测表现与行业对比 - 在内部评测中，模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平，整体质量超越了PixVerse-V5和国内开源模型Wan2.2[8] - 在公开评测平台VBench 2.0上，LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一，总分达到62.11%[12] - 在文本对齐度上表现略差于Veo3，在图生视频任务的图像一致性和动作连贯性上仍有改进空间[9]