美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局
机器之心·2026-02-04 19:20

文章核心观点 - 美团推出名为STAR的多模态统一大模型方案,其核心创新在于“堆叠自回归架构”与“任务递进训练”的双核心设计,旨在解决统一多模态大模型长期存在的“能力诅咒”问题,实现在不损害理解能力的前提下,达到顶尖的生成与编辑能力,并推动模型走向工业级落地 [2] 行业痛点:统一多模态大模型的“能力诅咒” - 优化目标互斥:理解任务(语义对齐与逻辑推理)与生成任务(像素保真与创意表达)的优化目标和特征空间不同,导致联合训练陷入零和博弈,强化一方会导致另一方能力下降 [8] - 训练范式繁复:现有技术路线面临高昂训练成本,端到端从零训练周期常以“月”为单位,而混合架构则需要复杂的特征转换桥和额外组件,增加了调参难度 [9] - 能力扩展退化:在预训练理解模型上增量引入生成任务时,会出现灾难性遗忘,导致原有理解能力显著下降,根源在于参数容量饱和与表征干扰 [10] 核心创新:重构多模态学习的“能力成长法则” - 核心架构:堆叠同构AR模型:采用与基础模型完全相同的架构新增堆叠模块,实现零适配成本和单目标训练,大幅简化扩展复杂度。例如,STAR-3B在Qwen2.5-VL-3B基础上仅新增1.2B参数,STAR-7B新增3B参数,实现了生成能力的跨越式提升和紧凑的工业化部署设计 [14] - 核心范式:任务递进式训练:将训练拆分为四个阶段,通过冻结已有能力、分步扩展新技能的方式,确保理解能力不退化,同时逐步增强生成/编辑能力 [16] - 辅助增强机制: - 高容量图像量化器:STAR-VQ将代码本规模从16384提升到65536,向量维度从8维提升到512维,以捕捉更多图像细节,并解决了大码本训练中的崩溃问题 [19] - 隐式推理机制:面对复杂提示时,先由冻结的基础模型进行推理生成隐式潜在标记,再引导堆叠模块进行图像生成,实现语义推理与像素生成的解耦,提升复杂场景下的语义对齐度 [20] 实验结果 - 生成任务: - 在GenEval benchmark中,STAR-7B以0.91的综合得分刷新SOTA,在6个子任务中有5项排名第一 [23] - 在DPG-Bench benchmark中,STAR-7B以87.44的得分领先,在复杂场景生成中表现突出 [23] - 在WISEBench benchmark中,STAR-7B以0.66的综合得分超越同类统一模型 [23] - 编辑任务: - 在ImgEdit benchmark中,STAR-7B以4.34的综合得分刷新SOTA,在“物体提取”、“动作编辑”等子任务中分别达到4.19、4.60 [26] - 在MagicBrush benchmark中,STAR-7B的CLIP-I得分达0.934(语义一致性),L1误差低至0.056(像素保真度) [26] - 理解任务:在专注于增强生成与编辑能力的同时,STAR模型在9大权威理解benchmark中依然保持领先水平。例如,STAR-7B在MMBench、MathVista、SEED等关键指标上表现优异 [28][29] 总结与展望 - 方案本质:STAR通过“任务递进”解决训练冲突,通过“堆叠同构AR”降低扩展成本,通过“STAR-VQ + 隐式推理”提升能力上限,最终以简洁结构实现了理解、生成、编辑三大任务的顶尖性能统一 [31] - 未来方向:后续可探索将能力边界扩展至视频生成、3D重建等更复杂任务;优化训练效率与部署成本;深化隐式推理机制;以及拓展文本、图像之外的模态(如语音、触觉),构建更全面的通用多模态系统 [32]