美团开源LongCat-Image图像生成模型 专注中文场景与编辑功能
凤凰网·2025-12-08 15:04

凤凰网科技讯 12月8日,美团LongCat团队今日正式发布并开源其图像生成与编辑模型LongCat-Image。 该模型参数规模为60亿(6B),官方称其旨在通过一套统一架构处理文本生成图像及自然语言指令编 辑任务。 模型架构 根据官方介绍,LongCat-Image采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT), 并整合了视觉语言模型(VLM)条件编码器。其主要技术特点包括: 1. 集成生成与编辑:模型支持通过文本提示生成图像,并可通过自然语言指令对图像进行多轮编辑。官 方列举了包括对象添加/移除、风格迁移、背景替换、文本修改等在内的15类编辑任务,并宣称在多轮 编辑中能保持图像风格、光照的一致性。 风格迁移与属性编辑能力对比 3. 输出效率与质量:通过模型结构轻量化与训练策略优化,宣称可在消费级GPU上实现高效推理,并生 成具有"摄影棚级"细节的图像。 图像生成综合能力对比 在性能评估方面,官方提供了部分基准测试数据: 1. 在图像编辑基准测试GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分别为7.60/7.64(中英文) 和4.50, ...