架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
机器之心·2025-12-02 13:07

统一理解与生成模型的发展现状 - 近一年来统一理解与生成模型发展迅速,但视觉理解和生成任务在网络层间存在冲突[2] - 早期完全统一模型(如Emu3)与单任务方法性能差距巨大,Janus-Pro、BAGEL通过解耦架构显著缩小了性能差距[2] - 后续方法通过直接拼接现有理解和生成模型达到极致性能,但这种方式可能背离统一模型的初衷[2] 统一模型的初衷与架构解耦的缺点 - 统一模型的初衷是通过透明化、合理化的图文交错思考过程提高单任务性能,例如走迷宫时生成每一步图像、做数学题时画辅助线等[3] - 架构解耦模型如BAGEL实现图文交错思考需要经历隐空间解码到文字/像素空间再编码到隐空间的复杂过程,存在计算开销大和信息丢失问题[3] - 架构解耦虽然带来可观性能提升,但随着研究深入可能成为重大问题[3] AIA方法的核心发现 - 研究发现不管如何解耦架构,理解和生成任务在同一层网络中始终呈现负相关关系,这与输入模态、长度和类别无关[8] - 模型自发学习分配两个任务在每层中的占比来缓解冲突,说明架构解耦本质上没有解决任务冲突问题[8] - 随着模型解耦程度增强,其跨模态交互模式会趋向单任务表现,这是性能提升的主要原因[8] AIA方法的技术创新 - 研究者设计Attention Interaction Alignment (AIA)损失,将单任务模型的跨模态交互模式作为学习目标,显式约束统一模型的交互模式[10] - AIA在Emu3和Janus-Pro上实验表明,无需其他trick即可提升模型性能,缩小与高解耦程度模型的差距[12] - 加入AIA损失后,Emu3和Janus-Pro的交互曲线都向单任务模型靠近,证明AIA有效性[14] AIA方法的性能表现 - Emu3 + AIA在多项指标上提升:MMMU从31.6提升至35.7,MMBench从61.4提升至64.8,MMVet从15.1提升至18.7,POPÉ从77.3提升至82.7[14] - Janus-Pro + AIA在MMBench从65.54提升至75.6,POPÉ从87.4提升至89.8[14] - 生成任务指标也有提升:Emu3 + AIA的GenEval从0.60提升至0.67,DPG从79.24提升至81.20[14] AIA的训练特性与优势 - AIA在不同模型上训练表现不同:Emu3预训练知识薄弱,AIA在很大范围内都能稳定收敛;Janus-Pro预训练知识强,AIA需要合适比重才能达到好效果[17] - AIA可减少数据配比工程问题,在生成与理解数据配比1:1情况下达到更好效果,说明两个任务产生协同优化效果[19] - AIA证明任务冲突可能是统一模型的天然特性,而非需要避免的问题[21] 统一模型的未来发展方向 - 完全统一方法与高解耦模型存在很大差距,但随着Emu3.5等模型出现,差距预计会缩小[15] - 另一条路径是移除所有任务区分线索(统一分词器、消除特殊token、使用交错数据),但会显著增加训练难度[22] - 统一模型的理论和架构远未成熟,需要更多研究者关注其真正意义而非单纯追求单任务基准性能[24]