美团开源LongCat-Video支持高效长视频生成,迈出“世界模型”探索第一步
公司技术发布 - 美团LongCat团队于10月27日发布并开源LongCat-Video视频生成模型 [2] - 该模型是一个基于Diffusion Transformer架构的多功能统一视频生成基座,原生支持文生视频、图生视频和视频续写三大核心任务 [5] - 模型依托视频续写任务预训练,可稳定输出5分钟级别的长视频且无质量损失,保障跨帧时序一致性与物理运动合理性 [2][5] 技术性能与优势 - 模型在文生视频、图生视频基础任务上的综合性能达到开源领域最先进水平 [2][9] - 通过结合块稀疏注意力与条件token缓存机制,模型在处理93帧及以上长序列时能兼顾效率与生成质量稳定 [5] - 针对高分辨率、高帧率视频生成,模型通过三重优化将视频推理速度提升至10.1倍 [6] - 该136亿参数的模型在文本对齐度、运动连贯性等关键指标上展现显著优势 [9] 战略定位与未来应用 - 此次发布的视频生成模型被视为公司探索“世界模型”的第一步 [2] - “世界模型”被业界视作通往下一代智能的核心引擎,旨在让AI理解、预测和重构真实世界 [2] - 未来,该模型计划融入公司持续投入的自动驾驶、具身智能等深度交互业务场景,以更好地连接数字世界与物理世界 [2]