核心观点 - 美团开源其最新视频生成模型LongCat-Video,参数规模为13.6B,支持文生视频、图生视频及视频延长,生成视频时长可达数分钟,整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出,部分核心维度可与谷歌闭源模型Veo3媲美,并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作,标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - 文生视频:可生成720p、30fps高清视频,语义理解与视觉呈现能力达开源SOTA级别,尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - 图生视频:能够保留参考图像的主体属性、背景关系与整体风格,在一致性挑战中表现稳定,例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - 视频延长:为核心差异化能力,可基于多帧条件帧续接视频内容,稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降,支持像制作连续剧一样生成完整情节 [32][33][38][48] - 性能基准:在内部测试中,文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B;在VBench 2.0公开测试总得分位列第三(62.11%),在常识性维度(运动合理性、物理定律遵循)上处于领先优势 [62][63][64] 技术创新与架构 - 统一架构设计:以Diffusion Transformer(DiT)为框架,集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中,通过条件帧数量区分任务 [41][42][44][47] - 长视频生成能力:通过直接在视频续生任务上预训练,从源头解决累积误差问题,并支持交互式生成,允许用户为不同片段设置独立指令 [45][46][48][49] - 效率优化:采用从粗到精的生成范式,结合块稀疏注意力将计算量降至原生10%以下,并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步,效率提升超10倍 [51][52][53] - 训练优化:使用组相对策略优化(GRPO)算法,并采用视觉质量(VQ)、运动质量(MQ)和文本-视频对齐度(TA)三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员,此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench,系统性衡量Agent能力 [70] - 一系列动作表明,AI正成为公司核心战略的重要组成部分,跨界布局已成常态 [65][70]
美团视频生成模型来了!一出手就是开源SOTA
量子位·2025-10-27 13:37