Workflow
美团发布并开源视频生成模型:部分参数比肩谷歌最先进模型Veo3
观察者网·2025-10-27 18:52

模型发布与技术定位 - 美团LongCat团队发布并开源视频生成模型LongCat-Video,该模型在文生视频和图生视频基础任务上达到开源SOTA水平[1] - 模型采用多任务联合训练机制,可在同一框架内处理零帧、单帧及多帧条件输入,区别于以往针对单一任务训练的模型[1] - 该模型的推出被视为公司迈向构建“世界模型”目标的关键一步,未来将与自动驾驶、具身智能等业务相结合[3] 核心技术突破与性能 - 模型原生支持生成长达5分钟、720p分辨率、30帧率的高清视频,重点解决了长时序生成中画面漂移、色彩偏移等难题[3][6] - 通过视频续写预训练、块稀疏注意力等机制,模型保持了较高的时间一致性与视觉稳定性,生成视频动作流畅、镜头移动自然[3][6][9] - 采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化,视频推理速度提升至10.1倍,实现了效率与质量的最优平衡[6] 评测表现与行业对比 - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越了PixVerse-V5和国内开源模型Wan2.2[8] - 在公开评测平台VBench 2.0上,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,总分达到62.11%[12] - 在文本对齐度上表现略差于Veo3,在图生视频任务的图像一致性和动作连贯性上仍有改进空间[9]