架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

统一理解与生成模型的发展现状 - 近一年来统一理解与生成模型发展迅速，但视觉理解和生成任务在网络层间存在冲突[2] - 早期完全统一模型（如Emu3）与单任务方法性能差距巨大，Janus-Pro、BAGEL通过解耦架构显著缩小了性能差距[2] - 后续方法通过直接拼接现有理解和生成模型达到极致性能，但这种方式可能背离统一模型的初衷[2] 统一模型的初衷与架构解耦的缺点 - 统一模型的初衷是通过透明化、合理化的图文交错思考过程提高单任务性能，例如走迷宫时生成每一步图像、做数学题时画辅助线等[3] - 架构解耦模型如BAGEL实现图文交错思考需要经历隐空间解码到文字/像素空间再编码到隐空间的复杂过程，存在计算开销大和信息丢失问题[3] - 架构解耦虽然带来可观性能提升，但随着研究深入可能成为重大问题[3] AIA方法的核心发现 - 研究发现不管如何解耦架构，理解和生成任务在同一层网络中始终呈现负相关关系，这与输入模态、长度和类别无关[8] - 模型自发学习分配两个任务在每层中的占比来缓解冲突，说明架构解耦本质上没有解决任务冲突问题[8] - 随着模型解耦程度增强，其跨模态交互模式会趋向单任务表现，这是性能提升的主要原因[8] AIA方法的技术创新 - 研究者设计Attention Interaction Alignment (AIA)损失，将单任务模型的跨模态交互模式作为学习目标，显式约束统一模型的交互模式[10] - AIA在Emu3和Janus-Pro上实验表明，无需其他trick即可提升模型性能，缩小与高解耦程度模型的差距[12] - 加入AIA损失后，Emu3和Janus-Pro的交互曲线都向单任务模型靠近，证明AIA有效性[14] AIA方法的性能表现 - Emu3 + AIA在多项指标上提升：MMMU从31.6提升至35.7，MMBench从61.4提升至64.8，MMVet从15.1提升至18.7，POPÉ从77.3提升至82.7[14] - Janus-Pro + AIA在MMBench从65.54提升至75.6，POPÉ从87.4提升至89.8[14] - 生成任务指标也有提升：Emu3 + AIA的GenEval从0.60提升至0.67，DPG从79.24提升至81.20[14] AIA的训练特性与优势 - AIA在不同模型上训练表现不同：Emu3预训练知识薄弱，AIA在很大范围内都能稳定收敛；Janus-Pro预训练知识强，AIA需要合适比重才能达到好效果[17] - AIA可减少数据配比工程问题，在生成与理解数据配比1:1情况下达到更好效果，说明两个任务产生协同优化效果[19] - AIA证明任务冲突可能是统一模型的天然特性，而非需要避免的问题[21] 统一模型的未来发展方向 - 完全统一方法与高解耦模型存在很大差距，但随着Emu3.5等模型出现，差距预计会缩小[15] - 另一条路径是移除所有任务区分线索（统一分词器、消除特殊token、使用交错数据），但会显著增加训练难度[22] - 统一模型的理论和架构远未成熟，需要更多研究者关注其真正意义而非单纯追求单任务基准性能[24]