Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
商汤商汤(HK:00020) 36氪·2025-12-05 15:06

行业范式转移 - 行业顶尖研究者如Ilya Sutskever指出,单纯依赖扩大数据、参数和算力的Scaling Law时代已经结束,大模型的未来在于架构创新而非规模堆砌 [1] - 行业过去几年陷入“唯规模论”的路径依赖,但Transformer架构的固有局限日益凸显,仅靠堆叠算力和数据无法通往真正的通用智能 [8] - 以NEO为代表的原生多模态架构的出现,标志着行业正从模块化拼接范式向更高效、更统一的原生架构范式迁移 [26] 现有技术瓶颈 - 当前主流多模态大模型(如GPT-4V、Claude 3.5)采用模块化拼接架构,将预训练的视觉编码器通过投影层嫁接到大语言模型上,视觉与语言信息在数据层面被粗暴拉拢,而非深度融合 [3] - 模块化架构存在三大技术鸿沟:1) 效率鸿沟:训练流程复杂、成本高昂,且各阶段可能引入误差;2) 能力鸿沟:视觉编码器的固定分辨率等设计限制了对复杂图像(如长图、工程图纸)的理解;3) 融合鸿沟:视觉与语言信息未在同一语义空间进行深度融合推理,导致细粒度任务表现不佳 [6][7][8] NEO架构的核心创新 - NEO是全球首个可大规模落地的开源原生多模态架构,其设计从第一性原理出发,打造了一个视觉与语言从诞生之初就统一的模型,不再区分视觉模块和语言模块 [3][8] - 核心创新体现在三大底层技术上:1) 原生图块嵌入:通过轻量级卷积神经网络直接从像素构建连续、高保真的视觉表征,突破了主流模型的图像建模瓶颈 [11][12];2) 原生三维旋转位置编码:为时间、高度、宽度三个维度分配不同频率,精准刻画视觉细节与空间结构,并为扩展到视频和3D场景铺平道路 [14];3) 原生多头注意力:在统一注意力框架下,让文本的因果注意力与视觉的双向注意力并存,提升对图像内部空间结构的理解能力 [16] - 配套采用Pre-Buffer & Post-LLM双阶段融合训练策略,巧妙解决了在不损害语言能力前提下学习视觉知识的难题,最终模型融为一个端到端的整体 [17] 性能与效率表现 - NEO展现出极高的数据效率,仅使用3.9亿个图像文本对进行训练,数据量仅为同类顶级模型所需数据的十分之一 [5][19] - 在多项视觉理解任务评测中,NEO追平甚至超越了Qwen2-VL、InternVL3等顶级模块化旗舰模型 [5][19] - 在2B参数规模下,NEO在AI2D、DocVQA、ChartQA等关键评测中得分分别为80.1、89.9、81.2,表现亮眼 [20] - 在8B参数规模下,NEO在MMMU、MMBench、MMStar、SEED-I、POPE等多个关键基准测试中均取得高分,展现出优于其他原生VLM的综合性能 [21][22] - NEO在2B到8B的中小参数规模区间内展现出较高的推理性价比,实现了精度与效率的双重跃迁,并大幅降低了推理成本 [22][23] 潜在影响与行业意义 - NEO为多模态AI的演进指明了新路径,其原生一体化架构从底层打通了视觉与语言的语义鸿沟,天然支持任意分辨率图像和长图文交错推理,并为视频理解、3D空间感知及具身智能等更高阶场景预留了扩展接口 [24] - 商汤科技已开源基于NEO架构的2B与9B模型,此举有望推动整个开源社区向更高效统一的原生架构迁移,加速形成新一代多模态技术的事实标准 [24] - NEO在中小参数规模下的高性价比,正在打破大模型垄断高性能的固有认知,使得强大的视觉理解能力可以下沉到手机、机器人、智能汽车、AR/VR眼镜、工业边缘设备等对成本、功耗和延迟敏感的终端场景 [23][24] - NEO是“架构创新重于规模堆砌”新趋势的首个成功范例,重新定义了多模态模型的构建方式,是通往下一代普惠化、终端化、具身化AI基础设施的关键雏形 [25][26]