美团LongCat-Video视频生成模型发布:可输出5分钟长视频
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]