Workflow
NEO多模态模型架构
icon
搜索文档
商汤(00020)涨3.38% 发布及开源全新多模态模型架构“NEO”
新浪财经· 2025-12-04 19:25
公司股价与市场反应 - 截至发稿,公司股价上涨3.38%,报2.14港元,成交额达6.44亿港元,午后股价维持高位 [1][1] - 股价上涨与公司发布并开源全新多模态模型架构“NEO”的公告直接相关 [1][1] 公司技术发布与合作 - 公司正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构“NEO” [1][1] - “NEO”架构预期是行业首个可用的、实现深层次融合的原生多模态架构 [1][1] - 该架构从底层原理出发进行创新设计,在核心架构层面实现多模态深层融合,旨在实现性能、效率和通用性的整体突破 [1][1] 行业技术影响与公司战略 - “NEO”架构的发布标志着AI多模态技术迈入“原生架构”的新时代 [1][1] - 该架构将为公司的日日新SenseNova多模态模型奠定新的架构基础 [1][1]
商汤科技进军具身智能行业:“大晓机器人”对标Figure AI,股价上涨3.38%
搜狐财经· 2025-12-04 17:27
行业规模与增长前景 - 在创新引领和需求释放的双重作用下,具身智能产业规模正在以超50%的增速跨越式增长 [1] - 中国具身智能产业市场规模有望在2030年达到4000亿元、在2035年突破万亿元 [1] 公司动态与市场反应 - 商汤科技联合创始人、执行董事王晓刚宣布担任具身智能企业“大晓机器人”的董事长 [1] - 大晓机器人将于12月18日发布“开悟”世界模型3.0、具身超级大脑模组A1等多项全球领先的技术与产品 [1] - 消息披露后,商汤科技股价应声上涨,截至12月4日收盘,股价报2.14港元,涨幅3.38% [1] 大晓机器人团队与技术 - 大晓机器人汇聚全球顶尖AI科学家与产业专家,构建了深厚的具身智能前沿技术库和工程化落地能力 [3] - 首席科学家陶大程是澳大利亚科学院院士,荣获IEEE计算机学会技术成就奖 [3] - 团队还包括来自南洋理工大学、香港大学和香港中文大学的AI科学家,以及来自AI、互联网、机器人、智能驾驶等领域的顶尖产业专家 [3] - 公司聚焦具身智能领域,首创ACE研发范式,构建以视觉为基础的“环境数据引擎—真实世界认知—具身交互泛化”的全链路技术体系 [4] - 其技术旨在精准回应行业技术突破与商业落地的双重诉求,将前沿技术转化为可落地、可复用的解决方案 [4] 商汤科技的技术积累与布局 - 商汤科技在具身智能领域技术积累深厚,近日发布并开源了多模态模型架构NEO,为机器人具身交互、视频理解及具身智能等多元化场景提供技术支撑 [4] - 在空间智能方面,公司提出的“Puffin”AI模型,让AI从被动处理数据变成像人一样借助相机的视角思考,从而提升具身智能的全局协同、感知精度和场景训练效率 [4] - 在生态层面,商汤曾于2025年WAIC世界人工智能大会上正式发布具身智能平台“悟能”,该平台覆盖感知、导航、交互三大核心能力,将成熟落地应用于汽车、机器人等各类终端 [4] - 对商汤而言,具身智能是技术路径的自然延伸,从计算机视觉到多模态大模型,再到集合视觉、感知、交互、决策等能力为一体的具身智能平台“悟能” [5] - 这种不断取得技术突破、再系统性整合能力,已成为科技企业中极为稀缺的资源 [5]
商汤开源NEO多模态模型架构,实现视觉、语言深层统一
新浪财经· 2025-12-02 19:25
公司产品发布 - 商汤科技与南洋理工大学S-Lab合作,于12月2日发布并开源了全新的多模态模型架构NEO [1][4] - NEO架构旨在从底层原理打破传统“模块化”范式,通过核心架构层面的多模态深度融合,实现视觉和语言的深层统一 [1][4] 架构创新与优势 - NEO架构在注意力机制、位置编码和语义映射三个关键维度进行底层创新,使模型天生具备统一处理视觉与语言的能力 [2][5] - 在原生图块嵌入方面,NEO摒弃离散的图像tokenizer,通过独创的Patch Embedding Layer构建从像素到词元的连续映射,以更精细捕捉图像细节 [3][6] - 在原生多头注意力方面,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存,提升了对空间结构关联的利用率 [3][6] 性能表现 - NEO展现了极高的数据效率,仅需3.9亿图像文本示例,为业界同等性能模型所需数据量的1/10,便能开发出顶尖视觉感知能力 [2][5] - 在多项公开权威评测中,NEO架构均斩获高分,其简洁架构在多项视觉理解任务中可追平Qwen2-VL、InternVL3等顶级模块化旗舰模型 [2][5] - 根据评测数据,NEO 1.7B版本在MMMU得分为48.6,在MMB得分为76.0,在MMStar得分为54.2,在SEED-I得分为74.2,在POPE得分为87.5 [1][4] - 根据评测数据,NEO 8B版本在MMMU得分为54.6,在MMB得分为82.1,在MMStar得分为62.4,在SEED-I得分为76.3,在POPE得分为88.4 [4] 行业技术范式 - 当前业内主流多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质仍以语言为中心,图像与语言融合仅停留在数据层面 [2][5] - 传统的“拼凑”式设计学习效率低下,且限制了模型在涉及图像细节捕捉或复杂空间结构理解等复杂多模态场景下的处理能力 [2][5]