彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
商汤商汤(HK:00020) 量子位·2026-03-06 14:33

文章核心观点 - 商汤科技与南洋理工大学联合发布的全新多模态模型架构NEO-unify,正在彻底重构多模态大模型的研发范式[1][2] - 该架构通过“无编码器设计”和“混合变换器(MoT)”,首次实现了真正“原生、统一、端到端”的多模态处理,标志着行业从“模态连接”向“原生统一智能体”的进化[3][4][5][6] 当前多模态智能架构困境与NEO-unify的解决方案 - 当前行业普遍依赖视觉编码器(VE)和变分自编码器(VAE)的“组件拼凑”范式,在感知与生成之间存在天然鸿沟[7][14] - 近期尝试构建“共享编码器”的折衷方案,仍面临结构性设计权衡[8] - NEO-unify回归第一性原理,直接以近乎无损的像素和文字作为原生输入,彻底砍掉了VE和VAE,实现了多模态处理的真正归一[9][10][11] NEO-unify原生一体化架构新范式 - 无编码器设计:越过视觉表征争论,摆脱预训练先验与规模定律瓶颈[13] - MoT架构:通过创新的混合变换器架构,在同一个体系内打通视觉与语言的“理解+生成”双向能力[4][13][16] - 高效利用:在保持高保真细节恢复的同时,显著提升了数据与算力的利用效率[13] - 实现路径:引入近似无损的视觉接口统一图像输入输出表示,采用原生MoT架构,并通过统一学习框架实现跨模态训练[15][16][17] 模型效果 - 定量结果分析:在多个基准测试中,NEO-unify展现出竞争力。例如,在2B参数规模下,NEO-unify在GenEval DPG-Bench得分为84[87],WISE得分为86.54,LongText-en得分为0.748[19]。在8B参数规模下,NEO-unify在GenEval DPG-Bench得分为85(90),WISE得分为86.71,LongText-en得分为0.914[19] - 生图效果展示:模型具备图像生成与编辑能力[20] 技术发现 - 无编码器设计保留双重表征:即使冻结理解分支,独立的生成分支仍能从表示中恢复细粒度视觉细节[23][24]。初步9万步预训练后,2B模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,接近Flux VAE的32.65和0.91[26][27] - 架构协同降低内在冲突:理解与生成能力在MoT主干中协同提升,整体冲突极小[45][46] - 展现更高数据训练效率:与Bagel模型相比,NEO-unify在使用更少训练token的情况下取得了更优的性能[49] 行业意义与未来展望 - NEO-unify预示着多模态智能正从“组件堆叠”迈向“本质统一”,勾勒出通往下一代智能形态的清晰路径[51][52] - 新范式旨在构建一个“从未被割裂的、高度集成的统一智能体”,使模型能够原生地跨模态思考,所需能力从其内部自然涌现[53][54] - 相关研发工作正处于规模化扩张与持续迭代的关键期,基于该架构的模型成果与开源贡献将在近期陆续发布[55]

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器 - Reportify