人工智能多模态技术
搜索文档
商汤发布NEO架构 重新定义多模态模型效能边界
证券日报· 2025-12-02 14:13
文章核心观点 - 商汤集团正式发布并开源了全新的原生多模态模型架构NEO 该架构从底层设计打破了传统模块化范式的限制 通过深层次融合实现了性能 效率和通用性的整体突破 标志着人工智能多模态技术迈入“原生架构”新时代 [2] - NEO架构旨在解决当前主流多模态模型“拼凑”式设计的痛点 其设计“专为多模态而生” 实现了核心架构层面的多模态深层融合 重新定义了模型的效能边界 [2] - 商汤致力于通过开源协作与场景落地双轮驱动 将NEO打造为下一代可扩展 可复用的AI基础设施 以推动原生多模态技术从实验室走向广泛的产业化应用 并加速构建下一代产业级技术标准 [3] 行业技术背景与现状 - 当前业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式 本质上仍以语言为中心 图像与语言的融合仅停留在数据层面 [2] - 这种基于大语言模型(LLM)的扩展方式 虽然实现了图像输入的兼容 但“拼凑”式的设计学习效率低下 且限制了模型在复杂多模态场景(如图像细节捕捉或复杂空间结构理解)下的处理能力 [2] 公司技术发展路径与成果 - 早在2024年下半年 商汤便在国内率先突破多模态原生融合训练技术 并以单一模型在SuperCLUE语言评测和OpenCompass多模态评测中夺冠 [3] - 基于上述核心技术 商汤打造了日日新SenseNova 6.0 实现了多模态推理能力领先 [3] - 2025年7月 公司发布日日新SenseNova 6.5 通过实现编码器层面的早期融合 把多模态模型性价比提升3倍 并在国内率先推出商用级别的图文交错推理 [3] - 此次发布的NEO架构彻底摒弃了传统模块化结构 是从零设计的原生架构 为日日新SenseNova多模态模型奠定了新一代架构的基石 [2][3] 开源与产业化战略 - 商汤已正式开源基于NEO架构的2B与9B两种规格模型 以推动开源社区在原生多模态架构上的创新与应用 [3] - 公司计划通过开源协作与场景落地双轮驱动 加速构建下一代产业级原生多模态技术标准 [3]