彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

文章核心观点 - 商汤科技与南洋理工大学联合发布的全新多模态模型架构NEO-unify，正在彻底重构多模态大模型的研发范式[1][2] - 该架构通过“无编码器设计”和“混合变换器（MoT）”，首次实现了真正“原生、统一、端到端”的多模态处理，标志着行业从“模态连接”向“原生统一智能体”的进化[3][4][5][6] 当前多模态智能架构困境与NEO-unify的解决方案 - 当前行业普遍依赖视觉编码器（VE）和变分自编码器（VAE）的“组件拼凑”范式，在感知与生成之间存在天然鸿沟[7][14] - 近期尝试构建“共享编码器”的折衷方案，仍面临结构性设计权衡[8] - NEO-unify回归第一性原理，直接以近乎无损的像素和文字作为原生输入，彻底砍掉了VE和VAE，实现了多模态处理的真正归一[9][10][11] NEO-unify原生一体化架构新范式 - 无编码器设计：越过视觉表征争论，摆脱预训练先验与规模定律瓶颈[13] - MoT架构：通过创新的混合变换器架构，在同一个体系内打通视觉与语言的“理解+生成”双向能力[4][13][16] - 高效利用：在保持高保真细节恢复的同时，显著提升了数据与算力的利用效率[13] - 实现路径：引入近似无损的视觉接口统一图像输入输出表示，采用原生MoT架构，并通过统一学习框架实现跨模态训练[15][16][17] 模型效果 - 定量结果分析：在多个基准测试中，NEO-unify展现出竞争力。例如，在2B参数规模下，NEO-unify在GenEval DPG-Bench得分为84[87]，WISE得分为86.54，LongText-en得分为0.748[19]。在8B参数规模下，NEO-unify在GenEval DPG-Bench得分为85（90），WISE得分为86.71，LongText-en得分为0.914[19] - 生图效果展示：模型具备图像生成与编辑能力[20] 技术发现 - 无编码器设计保留双重表征：即使冻结理解分支，独立的生成分支仍能从表示中恢复细粒度视觉细节[23][24]。初步9万步预训练后，2B模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM，接近Flux VAE的32.65和0.91[26][27] - 架构协同降低内在冲突：理解与生成能力在MoT主干中协同提升，整体冲突极小[45][46] - 展现更高数据训练效率：与Bagel模型相比，NEO-unify在使用更少训练token的情况下取得了更优的性能[49] 行业意义与未来展望 - NEO-unify预示着多模态智能正从“组件堆叠”迈向“本质统一”，勾勒出通往下一代智能形态的清晰路径[51][52] - 新范式旨在构建一个“从未被割裂的、高度集成的统一智能体”，使模型能够原生地跨模态思考，所需能力从其内部自然涌现[53][54] - 相关研发工作正处于规模化扩张与持续迭代的关键期，基于该架构的模型成果与开源贡献将在近期陆续发布[55]