Workflow
多模态模型
icon
搜索文档
商汤开源NEO多模态模型架构,实现视觉、语言深层统一
新浪财经· 2025-12-02 19:25
公司产品发布 - 商汤科技与南洋理工大学S-Lab合作,于12月2日发布并开源了全新的多模态模型架构NEO [1][4] - NEO架构旨在从底层原理打破传统“模块化”范式,通过核心架构层面的多模态深度融合,实现视觉和语言的深层统一 [1][4] 架构创新与优势 - NEO架构在注意力机制、位置编码和语义映射三个关键维度进行底层创新,使模型天生具备统一处理视觉与语言的能力 [2][5] - 在原生图块嵌入方面,NEO摒弃离散的图像tokenizer,通过独创的Patch Embedding Layer构建从像素到词元的连续映射,以更精细捕捉图像细节 [3][6] - 在原生多头注意力方面,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存,提升了对空间结构关联的利用率 [3][6] 性能表现 - NEO展现了极高的数据效率,仅需3.9亿图像文本示例,为业界同等性能模型所需数据量的1/10,便能开发出顶尖视觉感知能力 [2][5] - 在多项公开权威评测中,NEO架构均斩获高分,其简洁架构在多项视觉理解任务中可追平Qwen2-VL、InternVL3等顶级模块化旗舰模型 [2][5] - 根据评测数据,NEO 1.7B版本在MMMU得分为48.6,在MMB得分为76.0,在MMStar得分为54.2,在SEED-I得分为74.2,在POPE得分为87.5 [1][4] - 根据评测数据,NEO 8B版本在MMMU得分为54.6,在MMB得分为82.1,在MMStar得分为62.4,在SEED-I得分为76.3,在POPE得分为88.4 [4] 行业技术范式 - 当前业内主流多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质仍以语言为中心,图像与语言融合仅停留在数据层面 [2][5] - 传统的“拼凑”式设计学习效率低下,且限制了模型在涉及图像细节捕捉或复杂空间结构理解等复杂多模态场景下的处理能力 [2][5]
亚马逊云计算盛会即将开幕,关注科创板50ETF(588080)等产品配置价值
每日经济新闻· 2025-12-02 19:20
科创板市场表现 - 科创板50指数下跌1.2% [1] - 科创成长指数下跌1.3% [1] - 科创综指下跌1.3% [1] - 科创100指数下跌1.6% [1] AWS行业动态 - 全球最大云服务公司亚马逊网络服务将举办年度云计算盛会"AWS Re:Invent 2025" [1] - 预计将举办超过600场技术研讨会探讨AI创新应用 [1] - AWS预计发布新一代多模态Nova模型 [1] - 该模型能够处理文本、语音、图像和视频,并能生成文本和图像 [1]
商汤发布NEO架构 重新定义多模态模型效能边界
证券日报· 2025-12-02 14:13
文章核心观点 - 商汤集团正式发布并开源了全新的原生多模态模型架构NEO 该架构从底层设计打破了传统模块化范式的限制 通过深层次融合实现了性能 效率和通用性的整体突破 标志着人工智能多模态技术迈入“原生架构”新时代 [2] - NEO架构旨在解决当前主流多模态模型“拼凑”式设计的痛点 其设计“专为多模态而生” 实现了核心架构层面的多模态深层融合 重新定义了模型的效能边界 [2] - 商汤致力于通过开源协作与场景落地双轮驱动 将NEO打造为下一代可扩展 可复用的AI基础设施 以推动原生多模态技术从实验室走向广泛的产业化应用 并加速构建下一代产业级技术标准 [3] 行业技术背景与现状 - 当前业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式 本质上仍以语言为中心 图像与语言的融合仅停留在数据层面 [2] - 这种基于大语言模型(LLM)的扩展方式 虽然实现了图像输入的兼容 但“拼凑”式的设计学习效率低下 且限制了模型在复杂多模态场景(如图像细节捕捉或复杂空间结构理解)下的处理能力 [2] 公司技术发展路径与成果 - 早在2024年下半年 商汤便在国内率先突破多模态原生融合训练技术 并以单一模型在SuperCLUE语言评测和OpenCompass多模态评测中夺冠 [3] - 基于上述核心技术 商汤打造了日日新SenseNova 6.0 实现了多模态推理能力领先 [3] - 2025年7月 公司发布日日新SenseNova 6.5 通过实现编码器层面的早期融合 把多模态模型性价比提升3倍 并在国内率先推出商用级别的图文交错推理 [3] - 此次发布的NEO架构彻底摒弃了传统模块化结构 是从零设计的原生架构 为日日新SenseNova多模态模型奠定了新一代架构的基石 [2][3] 开源与产业化战略 - 商汤已正式开源基于NEO架构的2B与9B两种规格模型 以推动开源社区在原生多模态架构上的创新与应用 [3] - 公司计划通过开源协作与场景落地双轮驱动 加速构建下一代产业级原生多模态技术标准 [3]
超700亿!加仓
中国基金报· 2025-12-01 13:43
股票ETF市场整体概况 - 截至11月28日,全市场1268只股票ETF总规模达4.55万亿元 [4] - 11月28日股票ETF成交额合计1421.21亿元,较前一交易日1777.47亿元缩量超350亿元 [4] - 11月份股票ETF整体大幅净流入超700亿元,但11月28日单日出现净流出44亿元 [2][7][10] 单日市场表现与资金流向 - 11月28日A股市场低开高走,三大指数集体收涨,沪深两市成交量缩至1.59万亿元 [2] - 当日股票ETF市场总份额减少35.43亿份,净流出资金接近44亿元,仅12只股票ETF净流入超1亿元 [7][8] - 从全市场ETF看,11月28日债券ETF与策略风格ETF净流入居前,分别达6.59亿元与4.25亿元;行业主题ETF净流出居前,达39.49亿元 [8] - 资金流入前5板块分别为红利(净流入5.8亿元)、上证50指数(净流入4.0亿元)、创业板(净流入3.0亿元)、黄金(净流入2.5亿元)、恒生科技(净流入2.3亿元) [8] 板块表现与领涨ETF - 科创半导体板块领涨,油气资源ETF以3.49%涨幅居首,多只科创半导体ETF、半导体设备ETF及卫星ETF涨幅靠前 [4][6] - 稀有金属ETF表现强劲,嘉实、广发、工银瑞信、华富旗下稀有金属ETF单日涨幅均超2% [5][6] - 易方达基金旗下A500ETF当日成交56.37亿元位居首位,多只A500ETF及行业主题ETF成交额在30亿元以上 [4] 资金净流入/流出具体产品 - 资金净流入前列:上证50ETF净流入4.17亿元、中证500ETF净流入2.93亿元、港股央企红利ETF净流入2.65亿元 [9] - 资金净流出前列:证券ETF净流出6.54亿元、银行ETF净流出4.28亿元、创业板人工智能ETF净流出3.87亿元 [10] - 宽基ETF中A500ETF易方达净流出3.43亿元、科创50ETF净流出3.37亿元、沪深300ETF净流出2.75亿元 [10] 月度资金流向与热门板块 - 11月份恒生科技相关ETF获得资金青睐,合计净流入接近200亿元 [2][10] - 恒生互联网、港股通非银、创业板人工智能、机器人、券商等板块月度资金净流入也较多 [10] 头部基金公司动态 - 易方达基金ETF最新规模为8055.3亿元,2025年以来规模增加2048.8亿元 [12] - 华夏基金旗下上证50ETF和港股央企红利ETF单日净流入居前,分别达4.17亿元和2.65亿元 [12] - 易方达基金旗下多只产品持续净流入,恒生红利低波ETF最新规模达61亿元创成立以来新高 [12]
货拉拉CTO张浩:AI的胜负手,不在基础模型,而在「应用场」
搜狐财经· 2025-11-28 18:30
公司业务概况 - 公司为业务撮合平台,核心是连接货主与司机,业务遍及中国内地、东南亚、南美洲等全球400多个城市和地区 [7] - 平台月均有近2000万活跃用户和200万活跃司机,运营效率和用户体验是核心能力 [7] AI战略定位与路径选择 - 公司参考高盛2023年AI研报评估方法,通过岗位调研和任务拆解量化AI提效潜力,确定生成式AI将率先在高数据密度、人力密集型领域引发生产力革命 [7] - 初期投入资源研发货运行业垂类大模型,但最终调整方向,认识到基础大模型应由行业和大厂提供,而企业自身的AI应用平台建设更为重要 [8][9][10] - 公司花费一年多时间构建了三个核心AI平台:海豚平台(面向算法开发者)、悟空平台(支持非专业人士快速搭建智能体应用)和评测标注平台 [10][14][15] AI平台核心功能 - 悟空平台具备可视化流程编排、0代码智能构建能力,支持通过自然语言构建基本智能体,并建设企业级工具库 [10][13] - 海豚平台为算法工程师提供从数据训练、模型开发到上线维护的全生命周期一站式管理,旨在提升开发效率 [14][15] - 评测标注平台通过标注AB试验平台和拉拉智评等工具,重点提升模型PK和AB试验分流的完善度,确保上线结果可靠可重复 [15] AI具体应用场景与成效 - 在业务安全防控方面,通过大模型结合语音、图像等非结构化数据进行实时检测和干预,使危险品运输和违规载人的风险订单量下降30%,订单提醒率达到100% [16] - AI Coding在个体和团队中的使用率达到90%,研发流程渗透率达60%,但目前估算整体工作效率提升约为10% [17][18][19] - 产品体验创新包括“拍货选车”功能,通过AI点云分割计算货物体积并匹配车型,推荐过程仅需10秒钟 [20] - 利用大语言模型分析用户反馈,能精准捕捉如“开发票效率低”等以往易被忽略的信息 [20] - 构建AI产品知识专家系统,整合公司PRD文档、代码仓库等资料,解决历史知识垃圾和跨部门协作问题 [21] - 通过大语言模型优化短信内容,简化冗长表达,一年节省短信成本约12%,并提升风险合规预测能力 [22] AI数字人应用 - 开发AI+ASR+LDM+TTS三维串联的AI业务伙伴,通过热词运营和声学模型优化,语义识别准确率达94% [23][24] - 通过带口音的音色调整,使AI数字人的真人度达到92%,并利用大语言模型进行问题改写和场景路由,提升问题解决率和准确率 [24] 行业影响与未来展望 - 在当前以服务为主体的O2O行业(如电商、货运),AI的核心作用在于增收和降本,其提效能力被认为尚处于边缘,约在5%-10% [25] - 未来发展方向包括推进多模态模型方案,实现ASR、LLM、TTS的端到端单模型整合,并计划通过多个数字人协同提升整体企业流程效率 [25][26] - 长期期望是通过端到端大模型助手,对智能选车、智能填单以及内部运营、答疑等环节带来更大提效,进一步提升用户体验 [26]
粤开市场日报-20251118
粤开证券· 2025-11-18 15:42
核心观点 - 报告为2025年11月18日的A股市场复盘,指出主要指数多数收跌,市场呈现结构性分化,科技与传媒板块领涨,而传统周期板块大幅回调[1] 市场整体表现 - 沪指跌0.81%,收报3939.81点,深证成指跌0.92%,收报13080.49点,创业板指跌1.16%,收报3069.22点,科创50逆势上涨0.29%,收报1357.93点[1] - 市场个股普跌,1274只个股上涨,4103只个股下跌,67只个股收平[1] - 沪深两市成交额合计19261亿元,较上个交易日放量153亿元[1] 行业板块表现 - 申万一级行业中传媒、计算机、电子涨幅居前,分别上涨1.60%、0.93%、0.12%[1] - 煤炭、电力设备、钢铁、有色金属、基础化工等行业领跌,跌幅分别为3.17%、2.97%、2.85%、2.80%、2.67%[1] 概念板块表现 - 拼多多合作商、小红书平台、WEB3.0、Kimi、抖音豆包、多模态模型、网红经济、操作系统、虚拟人、智能体、ChatGPT、AIGC、医保支付改革、直播带货、中文语料库等概念板块涨幅居前[2] - 锂电正极、锂电负极、磷酸铁锂电池、两岸融合、锂电池、固态电池、氟化工、化学原料、精选储能、宁德时代产业链、铝产业、钴矿、煤炭开采、精选钒电池、高送转等概念板块跌幅居前[12]
人工智能系列谈丨AI时代的机遇与挑战:从科技创新到行业应用
新华社· 2025-11-18 14:34
文章核心观点 - 人工智能发展进入“下半场”,重心从技术突破转向产业落地和场景赋能 [2][5] - 2025年是“AI+”行动全面铺开的关键年,政策提供强劲支持 [2] - 企业拥抱AI需遵循识别、定义、执行、适配的四步方法论 [8][9] AI发展历程与现状 - 人工智能历经70余年发展,从1956年达特茅斯会议提出概念,经历专家系统、机器学习到深度学习的根本转变 [3] - 2017年Transformer架构的提出奠定了当代大模型的理论基础 [5] - 大模型发展存在两大关键限制:庞大的训练成本和上下文窗口对性能的影响 [5] AI下半场的核心趋势 - 第一大趋势:模型推理调用频率与能源消耗将快速超越训练阶段,能源需求重心转移 [6] - 第二大趋势:行业发展重心从训练侧转向推理侧,模型参数规模从千亿级拓展至万亿级 [6] - 第三大趋势:AI需求从对话交互升级为解决现实问题,智能体应用普及率目标到2027年超70% [7] - 第四大趋势:多模态模型快速发展,语音、图像、视频等数据是AI深入认知世界的关键 [7] 企业应用AI的方法论 - 第一步是识别:精准定位业务场景痛点,利用大模型在语言及泛翻译类任务上的原生能力快速落地 [8] - 第二步是定义:清晰界定AI落地的核心价值,建立可量化的衡量标准 [8] - 第三步是快速推进落地执行,将规划转化为实际成果 [8] - 第四步是适配新型工具,重构生产关系,推动AI数字人与人类员工高效协同 [9] AI与人类的比较 - 人脑具备持续学习能力,而大模型的学习与使用过程分离,参数权重固定后不会动态更新 [10] - 人脑能耗极低,仅需约20瓦电力,训练GPT-4的电力消耗高达20-25兆瓦,是人脑能耗的100万倍 [11] - 关于AI是否具备共情能力、自主意识及创造力等命题仍需持续探索 [12]
IDC:2025上半年中国视频云市场规模达52.3亿美元 同比增长8.9%
智通财经网· 2025-11-18 13:52
市场总体表现 - 2025上半年中国视频云市场规模达到52.3亿美元,同比增长8.9%,止跌回升 [1] - 音视频AI实时互动与智能媒体生产等AI细分场景半年市场规模达四千万美元,同比实现大三位数增长 [1] - 视频云基础设施市场规模为41.8亿美元,解决方案市场规模为10.6亿美元 [6] 市场增长驱动力 - 头部短视频与直播电商平台客户降本空间已完全释放,视频云服务需求企稳回升 [1] - 视频云出海需求持续增长,短剧发行、带货电商、泛娱乐直播、游戏连麦、顶级赛事与活动直播成为核心驱动力 [5] - 新兴AI社交、娱乐应用等多点爆发,多模态模型视频生成快速渗透至互联网电商、游戏、音视频客户内容生产场景 [1] AI技术融合与创新 - 多模态大模型与实时音视频(RTC)服务融合,电话客服、在线教育等场景引入大模型作为交互对象,AI陪伴与社交应用崛起 [4] - AIGC视频融合线上视频工具改写媒体生产流程,实现字幕快速替换、智能口型匹配、换脸及360度实时回放等功能 [4] - 视频云产品服务作为连接消费者与大模型的核心支撑架构,其演进将提升音视频内容体验、交互方式与生产流程 [12] 细分市场构成 - 视频云解决方案市场中,视频直播、音视频通信云服务、视频点播、视频生产与管理规模分别达到5.4亿、1.3亿、1.5亿、0.8亿美元 [6] 行业竞争格局 - 视频直播云服务市场前五名厂商(腾讯云、阿里云、华为云、火山引擎、金山云)合计市场份额为67.3%,环比提升 [6] - 音视频通信云服务市场前五名厂商(声网、腾讯云、即构科技、火山引擎、阿里云)合计市场份额为80.9%,环比持平 [8] - 视频点播云服务(不含基础带宽)市场前五名厂商(阿里云、腾讯云、火山引擎、金山云、华为云)合计市场份额为68.4%,环比提升 [10] 未来发展趋势 - 在不同场景中探索使用AI大模型或多模态模型将成为整个视频云行业的长期主题 [12] - 视频云服务商在边缘节点资源、网络连接与调度体系、配套SDK等领域建立的壁垒和差异化经验,将成为未来AI+音视频场景中的核心影响因素 [12]
中国曾经也有一家“OpenAI”
虎嗅APP· 2025-11-16 17:08
智源研究院的战略定位与模式 - 智源研究院是一家非营利性研究机构,拒绝成立商业化子公司,坚持其非营利的纯粹性[5][14][16] - 该机构通过“成果孵化”模式支持内部人才创业,并提供学术与资源支持,已孵化出智谱AI和月之暗面等公司,二者估值均达约300亿元人民币[5][13] - 智源形成了“科研—孵化—成果转化”的闭环体系,通过早期孵化和后期股权退出获得造血能力,以维持研究的长期独立性[15] 研究方向从“悟道”到“悟界”的转变 - 智源的研究重点已从大语言模型(“悟道”系列)转向多模态模型(“悟界”系列),因大语言模型技术路径已收敛,而多模态路线尚未确定[5][6] - 2024年10月发布了EMU3.5世界模型,该模型具备Scaling范式的潜力,但尚未达到真正的“Aha Moment”,因此版本号为3.5而非4[7][8][25] - EMU3.5的参数量约为三百多亿,相当于语言模型GPT-3.5之前的水平,接近多模态领域的“ChatGPT时刻”[25] 多模态模型的技术路径与核心理念 - 多模态模型EMU3.5模拟人类智能构建过程,主张智能应通过视觉、听觉等多模态感知长期学习而来,而非从文本开始[21][24] - 模型使用海量视频数据训练,在视觉、语言、时间、空间等多维度联合学习,实验显示随着数据量增加,多模态理解能力显著提升[23][24] - 当前EMU3.5仅使用不到全网1%的视频数据,参数量远未达上限,若算力和资源增加十倍,有望训练出下一代模型[25][26] Scaling范式的进展与挑战 - EMU3.5已展现出明确的Scaling趋势,即数据量、参数量与性能之间存在正相关,但尚未形式化为可定量关系的Scaling Law[27][28][29] - 从EMU3到EMU3.5的研发周期约一年,期间重点解决了自回归架构误差累积、视觉token表达方式等核心技术问题[31] - 多模态模型的Scaling范式已被验证可行,但后续更大规模的数据和算力投入更适合企业或资本推动[26] 人才组织与文化吸引力 - 高人才密度组织的共性是使命愿景驱动和价值观一致,早期OpenAI和智源均靠此凝聚顶尖研究者[11][12] - 智源能吸引放弃大厂高薪的研究员,因其提供长期科研价值的工作环境,筛掉只追求物质回报的人,留下技术信仰者[12][13] - 机构鼓励科研人员自由流动、创业或去企业,只要延续其技术路线,这种开放性被视为保持机构生命力的关键[18]
ETF总规模增至5.74万亿元 年内新发产品突破300只
证券日报· 2025-11-10 00:16
ETF市场整体表现 - ETF总份额达3.16万亿份,较去年年底增加5085.59亿份,涨幅19.17% [1] - ETF总规模达5.74万亿元,较去年年底增加20039.19亿元,涨幅53.7% [1] - 年内新发产品300余只,ETF总量达1354只 [1] 单只产品与重点类别表现 - 年内规模增长超过100亿元的ETF有69只 [1] - 富国港股通互联网ETF年内规模增加626.54亿元,工银瑞信基金港股通科技30ETF年内规模增加近300亿元 [1] - 华夏恒生科技指数ETF、华泰柏瑞恒生科技ETF等10余只产品年内新增规模均超过100亿元 [1] 规模增长驱动因素 - 科技类等资产吸引力提升以及新发产品贡献度较明显 [2] - 年内新发ETF发行份额近2500亿份,为总规模增长提供明显助力 [2] 新发产品结构 - 新发产品中股票型基金有277只,发行份额超过1500亿份 [2] - 债券型基金有32只,发行份额超900亿份 [2] - 年内新发ETF多以权益类产品为主,反映出投资者看好权益类资产表现 [2] 科技行业前景与投资逻辑 - 科技产业仍将处于中国经济发展的重要位置,为大模型、软件应用等细分赛道提供长期发展动能 [2] - 网络安全、量子计算等其他细分产业方向,也有望迎来政策利好 [2] - 半导体板块变化围绕两个方向:存储周期向上受模型推理需求变化推动;多模态模型和应用显著发展 [2] - 未来需重点聚焦半导体产业细分领域变化,例如模型本身的变化和推理任务的多样化、供应链各个环节的节奏协调与资源分配 [2] 其他主题与市场动态 - 高端制造和周期行业景气度上行,叠加政策支持产业升级,驱动资金流向机器人等主题基金 [2] - 投资者通过行业ETF捕捉结构性机会 [2] - 基金公司产品结构优化提升市场认可度,资金主动增配意愿明显 [2]