美团视频生成模型来了！一出手就是开源SOTA

核心观点 - 美团开源其最新视频生成模型LongCat-Video，参数规模为13.6B，支持文生视频、图生视频及视频延长，生成视频时长可达数分钟，整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出，部分核心维度可与谷歌闭源模型Veo3媲美，并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作，标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - 文生视频：可生成720p、30fps高清视频，语义理解与视觉呈现能力达开源SOTA级别，尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - 图生视频：能够保留参考图像的主体属性、背景关系与整体风格，在一致性挑战中表现稳定，例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - 视频延长：为核心差异化能力，可基于多帧条件帧续接视频内容，稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降，支持像制作连续剧一样生成完整情节 [32][33][38][48] - 性能基准：在内部测试中，文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B；在VBench 2.0公开测试总得分位列第三（62.11%），在常识性维度（运动合理性、物理定律遵循）上处于领先优势 [62][63][64] 技术创新与架构 - 统一架构设计：以Diffusion Transformer（DiT）为框架，集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中，通过条件帧数量区分任务 [41][42][44][47] - 长视频生成能力：通过直接在视频续生任务上预训练，从源头解决累积误差问题，并支持交互式生成，允许用户为不同片段设置独立指令 [45][46][48][49] - 效率优化：采用从粗到精的生成范式，结合块稀疏注意力将计算量降至原生10%以下，并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步，效率提升超10倍 [51][52][53] - 训练优化：使用组相对策略优化（GRPO）算法，并采用视觉质量（VQ）、运动质量（MQ）和文本-视频对齐度（TA）三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员，此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench，系统性衡量Agent能力 [70] - 一系列动作表明，AI正成为公司核心战略的重要组成部分，跨界布局已成常态 [65][70]