多模态统一建模

搜索文档
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
量子位· 2025-04-24 18:29
核心观点 - UniToken首次在统一框架内实现理解与生成的"双优表现",打破了多模态统一建模的僵局 [1] - UniToken通过融合连续和离散视觉表征,有效缓解了"任务干扰"和"表示割裂"的问题 [2] - 团队已将代码与模型全部开源,便于社区复现与开发 [3] 任务背景与挑战 - 传统图文理解模型与图像生成模型的视觉编码底层特性差异较大 [5] - 开发理解生成一体化模型面临两大难题:视觉编码割裂和联合训练干扰 [6] - 现有解决方案存在理解任务性能不足或上下文切换开销大等问题 [6] UniToken技术方案 - 采取统一的双边视觉编码器,融合VQ-GAN离散编码与SigLIP连续表征 [7][12] - 采用三阶段训练流程:视觉语义空间对齐、多任务联合训练、指令强化微调 [12][13][14][15] - 引入AnyRes和ViT端到端微调等细粒度视觉增强技术 [16][17][18] 实验结果 - 在多个主流多模态基准上取得媲美或领先专用模型的性能 [19] - 大规模数据场景下1:1的理解+生成数据比例能兼顾两项任务性能 [22] - 统一连续+离散视觉编码方案具有较强的鲁棒性 [22] 未来发展方向 - 模型规模扩展:探索更大语言模型的"涌现能力" [22] - 数据规模扩展:引入近2亿样本规模数据 [22] - 任务类型扩展:拓展至图像编辑、故事生成等图文交错任务 [22]