商汤开源NEO多模态模型架构,实现视觉、语言深层统一
商汤商汤(HK:00020) 新浪财经·2025-12-02 19:25

公司产品发布 - 商汤科技与南洋理工大学S-Lab合作,于12月2日发布并开源了全新的多模态模型架构NEO [1][4] - NEO架构旨在从底层原理打破传统“模块化”范式,通过核心架构层面的多模态深度融合,实现视觉和语言的深层统一 [1][4] 架构创新与优势 - NEO架构在注意力机制、位置编码和语义映射三个关键维度进行底层创新,使模型天生具备统一处理视觉与语言的能力 [2][5] - 在原生图块嵌入方面,NEO摒弃离散的图像tokenizer,通过独创的Patch Embedding Layer构建从像素到词元的连续映射,以更精细捕捉图像细节 [3][6] - 在原生多头注意力方面,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存,提升了对空间结构关联的利用率 [3][6] 性能表现 - NEO展现了极高的数据效率,仅需3.9亿图像文本示例,为业界同等性能模型所需数据量的1/10,便能开发出顶尖视觉感知能力 [2][5] - 在多项公开权威评测中,NEO架构均斩获高分,其简洁架构在多项视觉理解任务中可追平Qwen2-VL、InternVL3等顶级模块化旗舰模型 [2][5] - 根据评测数据,NEO 1.7B版本在MMMU得分为48.6,在MMB得分为76.0,在MMStar得分为54.2,在SEED-I得分为74.2,在POPE得分为87.5 [1][4] - 根据评测数据,NEO 8B版本在MMMU得分为54.6,在MMB得分为82.1,在MMStar得分为62.4,在SEED-I得分为76.3,在POPE得分为88.4 [4] 行业技术范式 - 当前业内主流多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质仍以语言为中心,图像与语言融合仅停留在数据层面 [2][5] - 传统的“拼凑”式设计学习效率低下,且限制了模型在涉及图像细节捕捉或复杂空间结构理解等复杂多模态场景下的处理能力 [2][5]