美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

文章核心观点 - 美团推出名为STAR的多模态统一大模型方案，其核心创新在于“堆叠自回归架构”与“任务递进训练”的双核心设计，旨在解决统一多模态大模型长期存在的“能力诅咒”问题，实现在不损害理解能力的前提下，达到顶尖的生成与编辑能力，并推动模型走向工业级落地 [2] 行业痛点：统一多模态大模型的“能力诅咒” - 优化目标互斥：理解任务（语义对齐与逻辑推理）与生成任务（像素保真与创意表达）的优化目标和特征空间不同，导致联合训练陷入零和博弈，强化一方会导致另一方能力下降 [8] - 训练范式繁复：现有技术路线面临高昂训练成本，端到端从零训练周期常以“月”为单位，而混合架构则需要复杂的特征转换桥和额外组件，增加了调参难度 [9] - 能力扩展退化：在预训练理解模型上增量引入生成任务时，会出现灾难性遗忘，导致原有理解能力显著下降，根源在于参数容量饱和与表征干扰 [10] 核心创新：重构多模态学习的“能力成长法则” - 核心架构：堆叠同构AR模型：采用与基础模型完全相同的架构新增堆叠模块，实现零适配成本和单目标训练，大幅简化扩展复杂度。例如，STAR-3B在Qwen2.5-VL-3B基础上仅新增1.2B参数，STAR-7B新增3B参数，实现了生成能力的跨越式提升和紧凑的工业化部署设计 [14] - 核心范式：任务递进式训练：将训练拆分为四个阶段，通过冻结已有能力、分步扩展新技能的方式，确保理解能力不退化，同时逐步增强生成/编辑能力 [16] - 辅助增强机制： - 高容量图像量化器：STAR-VQ将代码本规模从16384提升到65536，向量维度从8维提升到512维，以捕捉更多图像细节，并解决了大码本训练中的崩溃问题 [19] - 隐式推理机制：面对复杂提示时，先由冻结的基础模型进行推理生成隐式潜在标记，再引导堆叠模块进行图像生成，实现语义推理与像素生成的解耦，提升复杂场景下的语义对齐度 [20] 实验结果 - 生成任务： - 在GenEval benchmark中，STAR-7B以0.91的综合得分刷新SOTA，在6个子任务中有5项排名第一 [23] - 在DPG-Bench benchmark中，STAR-7B以87.44的得分领先，在复杂场景生成中表现突出 [23] - 在WISEBench benchmark中，STAR-7B以0.66的综合得分超越同类统一模型 [23] - 编辑任务： - 在ImgEdit benchmark中，STAR-7B以4.34的综合得分刷新SOTA，在“物体提取”、“动作编辑”等子任务中分别达到4.19、4.60 [26] - 在MagicBrush benchmark中，STAR-7B的CLIP-I得分达0.934（语义一致性），L1误差低至0.056（像素保真度） [26] - 理解任务：在专注于增强生成与编辑能力的同时，STAR模型在9大权威理解benchmark中依然保持领先水平。例如，STAR-7B在MMBench、MathVista、SEED等关键指标上表现优异 [28][29] 总结与展望 - 方案本质：STAR通过“任务递进”解决训练冲突，通过“堆叠同构AR”降低扩展成本，通过“STAR-VQ + 隐式推理”提升能力上限，最终以简洁结构实现了理解、生成、编辑三大任务的顶尖性能统一 [31] - 未来方向：后续可探索将能力边界扩展至视频生成、3D重建等更复杂任务；优化训练效率与部署成本；深化隐式推理机制；以及拓展文本、图像之外的模态（如语音、触觉），构建更全面的通用多模态系统 [32]