美团开源LongCat-Video支持高效长视频生成，迈出“世界模型”探索第一步

公司技术发布 - 美团LongCat团队于10月27日发布并开源LongCat-Video视频生成模型 [2] - 该模型是一个基于Diffusion Transformer架构的多功能统一视频生成基座，原生支持文生视频、图生视频和视频续写三大核心任务 [5] - 模型依托视频续写任务预训练，可稳定输出5分钟级别的长视频且无质量损失，保障跨帧时序一致性与物理运动合理性 [2][5] 技术性能与优势 - 模型在文生视频、图生视频基础任务上的综合性能达到开源领域最先进水平 [2][9] - 通过结合块稀疏注意力与条件token缓存机制，模型在处理93帧及以上长序列时能兼顾效率与生成质量稳定 [5] - 针对高分辨率、高帧率视频生成，模型通过三重优化将视频推理速度提升至10.1倍 [6] - 该136亿参数的模型在文本对齐度、运动连贯性等关键指标上展现显著优势 [9] 战略定位与未来应用 - 此次发布的视频生成模型被视为公司探索“世界模型”的第一步 [2] - “世界模型”被业界视作通往下一代智能的核心引擎，旨在让AI理解、预测和重构真实世界 [2] - 未来，该模型计划融入公司持续投入的自动驾驶、具身智能等深度交互业务场景，以更好地连接数字世界与物理世界 [2]