多模态大模型
搜索文档
数据邪修大法好:仅用文本数据就能预训练多模态大模型
量子位· 2026-03-03 12:25
ReVision研究的核心观点 - 研究提出在多模态大模型预训练阶段,昂贵的图文配对数据并非必需,可以通过非配对数据的统计信息实现跨模态对齐 [3][4] - 该方法基于对比学习预训练建立的共享表征空间,通过修正文本表征的分布特性(一阶矩和二阶矩)来对齐图像表征,从而绕过对配对数据的依赖 [8] - 核心突破在于利用海量非配对文本和少量非配对图像的统计分布,通过几何变换将文本数据伪装成视觉信号进行训练,大幅降低数据成本 [16][17] 对模态鸿沟的重新理解 - 研究发现模态鸿沟并非各向同性的均匀偏差,而是由“稳定的偏差”和“各向异性的残差”组成的系统性几何偏移 [13][14] - 在预训练的共享表征空间中,图像和文本分布已具备高度一致的语义拓扑,仅存在旋转、缩放和平移的几何偏差 [8] - 精准复刻视觉特征各向异性的几何形状,是模拟视觉特征、实现跨模态互换性的关键 [15] ReAlign几何对齐策略 - **锚点对齐**:计算图像数据的重心,将文本数据的中心平移过去,以消除一阶偏差 [19] - **迹对齐**:根据图像数据的全局迹,通过线性仿射变换对文本特征进行拉伸和旋转,以复刻视觉特征的各向异性残差 [20][21] - **质心对齐**:进行二次校正以消除投影到单位超球面时产生的“幽灵漂移”,确保特征在最终流形面上精准对齐 [22] 非配对文本数据的优势 - **突破数据限制**:高质量图文对有限且成本高,而非配对文本数据(如书籍、论文)近乎无限,可转化为多模态训练燃料 [25] - **提升知识密度**:非配对长文本包含丰富语义和世界知识,模型通过学习这些文本,不仅能掌握图像特征,还能理解背后的复杂逻辑和推理 [26] - **成本效益显著**:使用200万条经过ReAlign变换的纯文本预训练的模型,性能超过使用100万条真实图文对预训练的基线模型,且数据成本仅为后者的74% [27][28] 实验性能与成本对比 - ReVision方法在多项基准测试(如MME、MMStar、SQA、MMMU等)上平均得分达到51.16,优于其他对比方法(如CS Align的48.06和W/o. Align的47.50)[29] - 在成本对比中,ReVision™方法的成本为0.37(基准单位),显著低于Unicorn方法的3.98,而与使用图像的方法(成本为1.00)相比,ReVision-2M方法以0.74的成本实现了49.75的平均性能 [29]
英伟达官宣CPO两大投资;iPhone 17e发布升杯没涨价
21世纪经济报道· 2026-03-03 10:55
巨头风向标 - 英伟达与Coherent达成战略协议 包括数十亿美元的采购承诺 并向其投资20亿美元以支持研发和在美国的制造能力 [2] - 英伟达与Lumentum达成多年战略协议 同样包括数十亿美元的采购承诺 并投资20亿美元以支持其研发和在美国新建晶圆厂 [2] - 小米人形机器人已在汽车工厂进行场景验证 在自攻螺母安装工站实现连续3小时自主作业 安装成功率达90.2% 满足76秒产线节拍 [3] - 苹果发布iPhone 17e 起售价4499元 搭载A19处理器 256G版本起售价与上一代128G版本一致 叠加国补后预估价格有望为3999元起 [4] - 魅族高管透露 魅族23已完成开发但不会面向市场发售 Flyme系统后续不再推出大版本更新 仅提供基本维护 [5] - 滴滴自动驾驶成立深穹远航实验室 并与清华大学达成合作 聚焦多模态大模型、世界模型等方向以推动自动驾驶技术突破 [7][8] - 阿里巴巴将大模型品牌统一为“千问” 春节期间千问APP的DAU达到7352万 同比增长940% 增幅居国内AI应用首位 [9] - 中兴通讯与土耳其电信完成全球首个C+L全频一体化1.6Tbps现网试验 实现400GE/800GE业务超高速传输 [10] - 格力电器回应“未来每年将不再派发股息”传闻 称公司重视投资者回报 未来分红安排将结合战略规划、经营业绩等综合确定 [11] 最芯见闻 - 瑞萨电子任命刘芳为集团副总裁兼中国总裁 负责中国区运营及战略执行 以深化客户合作并推动市场增长 [12] - 高通发布新一代3nm制程骁龙可穿戴平台至尊版 其CPU单线程性能最高提升5倍 GPU最高FPS性能提升可多达7倍 AI算力达10TOPS 可支持运行200亿参数的设备端AI模型 [13] - 希荻微宣布自3月1日起部分产品涨价 主要因成熟制程领域结构性供需失衡带来的成本压力 本轮涨价涵盖消费电子和车载电子产品线 [14] - 天普股份公告称 公司股价自2025年8月22日至2026年3月2日累计上涨385.70% 已严重偏离基本面 公司主营业务未发生重大变化 且与股东中昊芯英无资产注入计划 [14][15] 上市资本流 - 臻宝科技将于2026年3月5日接受上交所上市委审议 拟募集资金11.98亿元 用于半导体精密零部件及材料生产基地等项目 [16] - 思坦科技完成近亿元B3轮融资 B轮累计融资金额超2亿元 融资将用于加速车载投影、AR显示商业化及拓展工业视觉检测等业务 [17] 科技财报观 - MiniMax发布上市后首份财报 2025年实现收入7903.8万美元 同比增长158.9% 毛利为2007.9万美元 同比大幅增长437.2% 毛利率从12.2%提升至25.4% [18] - MiniMax在2025年录得年内亏损18.72亿美元 同比增加302.3% 亏损扩大主要因公司估值增加导致优先股录得重大重新计量亏损 [18]
当AI削减岗位与席位,谁还能留在科技核心资产名单里?
美股研究社· 2026-03-02 19:18
文章核心观点 - 2026年AI投资进入新阶段,市场正从主题炒作转向业绩兑现与逻辑证伪,并重新评估产业链价值分配,导致科技股出现显著的结构性分化 [2][3][4] - AI商业化落地后,技术革命红利分布不均,正在重塑生产关系和颠覆原有商业逻辑,特别是对传统SaaS商业模式构成根本性冲击 [2][8][10] - 投资逻辑发生转变,市场焦点从“AI是否增长”转向“增长集中在哪些环节”,具备“硬资产”属性、定价权和刚需特征的上游环节(如算力、存储)更受青睐,而下游应用层面临估值压力 [8][12][14] AI投资进入结构性切换深水区 - 2026年初市场出现抛售,纳斯达克综合指数回落逾4%,AI相关科技股成为资金主要撤离方向,这标志着AI投资从“主题炒作”进入“业绩兑现”与“逻辑证伪”并存的阶段 [3][4] - 市场波动是对AI产业链价值分配的重新洗牌,而非简单的风险偏好下降,投资者开始严格审视公司在产业链中的生态位 [3][5][8] - AI不仅是一个增量市场,更是一个存量博弈的加速器,它加速效率提升和落后产能出清,导致硬件厂商与软件厂商的境遇分化 [8] 上游算力与基础设施依然稳固 - 以英伟达为代表的算力核心公司,其基本面逻辑依然强劲,主要驱动力来自超大规模企业持续扩张的AI资本开支 [7] - 微软、Meta、亚马逊、谷歌2026年合计资本开支预计约8500亿美元,相比2025年增长近30%,表明对AI基础设施的投入并未减速 [7] - 随着多模态大模型向推理端延伸及主权AI项目兴起,全球对高性能GPU的需求未见顶,模型参数量的指数级增长反而推高了对算力密度的要求,“铲子效应”依然显著 [7] 传统SaaS商业模式遭遇结构性冲击 - Salesforce等传统SaaS公司面临困境,核心在于其“按席位收费”的商业模式根基受到AI的正面冲击 [10] - AI提升生产力的逻辑可能导致企业减少员工数量,高盛预测2026年美国失业率可能从4.2%升至4.6%,这将直接削弱与员工规模挂钩的软件需求 [10] - AI Agent等工具使企业可能自建自动化流程,从而减少对传统中后台软件(如CRM)的席位购买,转向购买更少的AI调用额度,引发商业模式的结构性冲突 [10] - iShares扩展科技软件ETF年内下跌约25%,反映了市场对传统SaaS公司增长轨迹和估值逻辑的重估 [11] 存储芯片等“硬资产”成为新受益者 - 存储芯片公司表现强势,美光科技、西部数据、SK海力士、三星电子等年内涨幅超过70% [13] - 驱动因素是AI工作负载对高带宽存储(HBM)需求激增,且供应瓶颈未完全缓解,HBM容量需求每18个月翻一番 [13] - 硬资产(算力、存储)因具备物理世界限制(产能、能源、散热)形成的天然护城河和更强议价能力,在AI周期中表现优于易被替代的软件 [13] 投资策略转向精选与聚焦定价权 - 投资核心问题转变为:谁掌握定价权、谁站在资本开支上游、谁的商业模式不会被AI反噬 [14] - 当前答案指向算力与存储等处于景气区间的“硬资产”,而传统SaaS正经历商业模式压力测试 [14] - 单纯持有科技指数可能无法获得超额收益,配置策略需调整,应精选具备“硬资产”属性、拥有定价权并能利用AI优化自身成本结构的公司 [14] - 高盛分析师判断,市场不会轻易为软件、媒体等数据密集型行业重新估值,除非看到连续数季业绩韧性或明显估值折价,科技板块短期将呈现结构性行情 [13]
何小鹏:小鹏第二代VLA开启自动驾驶DeepSeek时刻;知情人士:鸿蒙智行已对违规营销门店进行处罚丨汽车交通日报
创业邦· 2026-03-02 18:05
鸿蒙智行营销管理事件 - 鸿蒙智行对部分门店的违规营销行为进行了处罚 处罚措施包括责令限期整改、扣除绩效分数及门店激励、要求经销商对责任人进行经济处罚及问责 [2] - 涉事的两家鸿蒙智行门店已发布道歉声明 承认在营销视频中使用加速或倒放视频素材等违规行为并接受批评 [2] 小马智行Robotaxi运营进展 - 小马智行宣布其第七代Robotaxi于2026年2月在深圳实现月度单车运营盈利转正 [2] - 截至2026年2月28日 该车型当月单车单日平均净收入达到338元 单车日均订单量达23单 [2] 滴滴自动驾驶技术研发合作 - 滴滴自动驾驶成立深穹远航实验室 并与清华大学李升波教授课题组达成产学研深度融合专项合作 [3] - 合作将聚焦多模态大模型、世界模型、强化学习等前沿方向 共同推动多模态端到端自动驾驶技术突破与产业落地 [3] - 实验室采用“实体运营+资源共用+联合攻关”模式 旨在打造“研究-工程-商业”产学研合作新范式 并通过联合培养机制塑造AI领域高端人才 [3] 小鹏汽车自动驾驶技术发布 - 小鹏汽车发布第二代VLA智驾系统 公司董事长何小鹏称其开启自动驾驶的“DeepSeek时刻” 并表示这是面向完全自动驾驶的第一个版本 将以前所未有的速度迭代 [4] - 公司宣布将于3月11日在全国732家门店开启第二代VLA的试驾 [4] - 公司计划启动从喀什到上海长达5000公里的智驾横穿中国计划 同时搭载第二代VLA的Robotaxi也已开启公开道路测试 [4]
北京格灵深瞳信息技术股份有限公司2025年度业绩快报公告
上海证券报· 2026-02-28 05:21
2025年度经营业绩概览 - 2025年度公司实现营业总收入15,545.11万元,较上年同期增长32.59% [1] - 归属于母公司所有者的净利润为-18,030.36万元,与上年同期相比亏损收窄14.79% [1] - 归属于母公司所有者的扣除非经常性损益的净利润为-19,335.45万元,与上年同期相比亏损收窄14.65% [1] 财务状况 - 报告期末公司总资产为213,829.54万元,较年初减少7.74% [1] - 报告期末归属于母公司的所有者权益为185,780.34万元,较年初减少8.76% [1] 收入增长驱动因素 - 营业总收入同比增长32.59%的主要原因是公司在城市管理、政务及特种、智慧教育等领域的综合收入较上年增长 [3] - 收入增长一方面得益于公司在各重点领域的市场拓展初显成效,另一方面源于2024年11月收购深圳市国科亿道科技有限公司,本年度合并报表扩大了收入规模 [2][3][4] 战略与业务发展 - 2025年是公司改革关键之年,公司围绕多模态大模型持续进行研发投入,以巩固技术领先优势 [2] - 公司聚焦于市场开拓与业务多元化发展,重点深耕智慧金融、城市管理、政务及特种以及智慧教育领域 [2] - 公司开展符合国产信创标准的行业级大模型产品研发,并围绕行业赛道重建销售团队,着力提升商业落地能力并优化客户结构 [2] 各领域业务表现 - 报告期内,受宏观经济环境等因素影响,智慧金融领域客户预算有所收紧 [2] - 公司与大客户中国农业银行股份有限公司的框架合同已于2025年9月到期,相关产品需求放缓 [2] - 公司在城市管理、政务及特种、智慧教育等其他领域的业务多元化取得初步进展 [2]
格灵深瞳(688207.SH)业绩快报:2025年净亏损1.80亿元
格隆汇APP· 2026-02-27 23:56
业绩概览 - 2025年度公司实现营业总收入1.55亿元,较上年同期增长32.59% [1] - 2025年度归属于母公司所有者的净利润为-1.80亿元,亏损较上年同期减少14.79% [1] - 2025年度扣除非经常性损益的净利润为-1.93亿元,亏损较上年同期减少14.65% [1] - 报告期末公司总资产为21.38亿元,较年初减少7.74% [1] - 报告期末归属于母公司的所有者权益为18.58亿元,较年初减少8.76% [1] 经营业绩驱动因素 - 公司围绕多模态大模型持续对重点领域进行研发投入,巩固技术领先优势 [2] - 公司聚焦市场开拓与业务多元化,重点深耕智慧金融、城市管理、政务及特种、智慧教育领域 [2] - 公司开展符合国产信创标准的行业级大模型产品研发 [2] - 公司围绕行业赛道重建销售团队,着力提升商业落地能力并优化客户结构 [2] 分业务领域表现 - 智慧金融领域客户预算收紧,且公司与大客户中国农业银行的框架合同已于2025年9月到期,相关产品需求放缓 [2] - 城市管理、政务及特种、智慧教育等其他领域的综合收入金额较上年有所增长,业务多元化取得初步进展 [2] - 其他领域收入增长得益于公司在各重点领域的市场拓展初显成效 [2] - 2024年11月收购深圳市国科亿道科技有限公司,本年度合并国科亿道进一步扩大了收入规模 [2] 未来战略方向 - 公司将继续深耕重点行业,深度挖掘多场景需求 [2] - 公司未来将不断拓宽收入来源,优化客户结构 [2]
格灵深瞳业绩快报:2025年净亏损1.80亿元
格隆汇· 2026-02-27 22:32
业绩概览 - 2025年度公司实现营业总收入1.55亿元,较上年同期增长32.59% [1] - 2025年度归属于母公司所有者的净利润为-1.80亿元,亏损同比减少14.79% [1] - 2025年度归属于母公司所有者的扣除非经常性损益的净利润为-1.93亿元,亏损同比减少14.65% [1] - 报告期末公司总资产为21.38亿元,较年初减少7.74% [1] - 报告期末归属于母公司的所有者权益为18.58亿元,较年初减少8.76% [1] 经营业绩驱动因素 - 公司围绕多模态大模型持续进行研发投入,巩固技术领先优势,并聚焦市场开拓与业务多元化 [2] - 公司重点深耕智慧金融、城市管理、政务及特种以及智慧教育领域 [2] - 公司开展符合国产信创标准的行业级大模型产品研发,并围绕行业赛道重建销售团队以提升商业落地能力并优化客户结构 [2] 分领域业务表现 - 报告期内,受宏观经济环境影响,智慧金融领域客户预算收紧,且公司与大客户中国农业银行的框架合同已于2025年9月到期,相关产品需求放缓 [2] - 公司在城市管理、政务及特种、智慧教育等其他领域的综合收入金额较上年有所增长,业务多元化取得初步进展 [2] - 其他领域收入增长得益于公司在各重点领域的市场拓展初显成效,以及2024年11月收购深圳市国科亿道科技有限公司,本年度合并国科亿道进一步扩大了收入规模 [2] 未来战略方向 - 公司未来将继续深耕重点行业,深度挖掘多场景需求,不断拓宽收入来源,优化客户结构 [2]
格灵深瞳:2025年净亏损1.8亿元,同比收窄14.79%
新浪财经· 2026-02-27 17:04
公司2025年度财务表现 - 2025年度实现营业总收入1.55亿元,同比增长32.59% [1] - 2025年度净亏损1.8亿元,同比收窄14.79% [1] 公司战略与转型 - 2025年是公司改革的关键之年,处于稳健转型过程中 [1] - 公司围绕多模态大模型持续对重点领域进行研发投入,以巩固技术领先优势 [1] - 公司聚焦于市场开拓与业务多元化发展 [1] 业务领域与研发重点 - 公司重点深耕智慧金融、城市管理、政务及特种以及智慧教育领域 [1] - 公司开展符合国产信创标准的行业级大模型产品研发 [1] 销售与商业化 - 公司围绕行业赛道重建销售团队 [1] - 公司着力提升商业落地能力并优化客户结构 [1]
电子行业跟踪报告:字节跳动发布Seedance2.0
爱建证券· 2026-02-25 08:45
行业投资评级 - 电子行业评级为“强于大市” [1] 报告核心观点 - 字节跳动发布新一代AI音视频大模型Seedance 2.0,标志着全球AI音视频大模型行业进入技术快速迭代与商业化加速落地的爆发期,预计将带动上游AI基建需求提升 [2][19] - 建议关注AI音视频生成应用放量带动下的上游AI基建核心赛道投资机会,包括光模块、存储、PCB等重点领域 [2] 根据目录总结 1. 字节跳动发布新一代音视频创作模型Seedance 2.0 - **事件概述**:2026年2月12日,字节跳动发布Seedance 2.0,该模型采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四大模态输入 [2][5] - **技术亮点**: - 运动稳定性和物理还原能力出色,多主体交互及复杂运动场景下的视频生成可用率达到业界SOTA水平 [2][9] - 指令遵循与一致性表现全面提升,支持混合模态输入,用户可同时输入最多9张图片、3段视频和3段音频 [2][9] - 支持稳定可控的视频延长与编辑功能,可输出15秒高质量多镜头音视频内容,并配备双声道音频能力 [2][9] - 相较于Sora 2 Pro、Veo 3.1、Kling系列等主流产品,在运动逻辑、指令遵循、画面质感、视听一致性及长脚本理解上具备明显优势 [2][12] - **发展历程**:字节跳动自2024年9月发布PixelDance、Seaweed模型起,历经2025年5月的技术融合推出Seedance 1.0 lite,6月发布Seedance 1.0,12月迭代至Seedance 1.5 Pro,最终于2026年2月全量发布Seedance 2.0,技术迭代脉络清晰 [2][6][8] 1.3 全球音视频大模型竞争格局 - **海外市场**:以OpenAI的Sora系列和Google DeepMind的Veo 3.1为核心标杆 [2][19] - **OpenAI Sora系列**:初代Sora于2024年2月发布,采用Diffusion Transformer架构,支持最长60秒视频生成,覆盖文生视频、图生视频、视频生视频、视频插帧等多种类型,但仅能生成无声视频 [20][22][23] - **Sora 2**:于2025年9月发布,解决了初代无声局限,实现原生音视频同步,并在物理模拟精度上实现突破性升级,在人物走路、水流动态等场景的真实度相较于初代提升区间为36%-70%,水流动态场景提升最显著达70% [24][25][28] - **Google Veo 3.1**:于2025年10月发布,支持文本、图像提示生成高清视频,具备原生音频生成能力,提供100%免费访问与免注册即时使用,代际速度仅需60-90秒,远快于Sora的2-5分钟 [30][34][35] - **国内市场**:以字节跳动Seedance 2.0和快手可灵Kling 3.0为代表,形成双强领跑格局 [2][19] - **快手Kling 3.0**:于2026年2月5日上线,以原生音画一体化为核心迭代方向,支持最高1080p分辨率、单次最长15秒视频生成,具备全场景多语种语音生成能力,可在单一画面中协调最多三个不同角色的独立对话 [35][36][37] 2. 市场行情回顾 - **A股市场表现(2026年2月9日-2月13日)**: - SW电子行业指数上涨3.52%,在31个SW一级行业中排名第3,同期沪深300指数上涨0.36% [38] - SW一级行业涨幅前五分别为:综合(+15.28%)、计算机(+4.35%)、电子(+3.52%)、传媒(+3.51%)、建筑材料(+2.86%) [38] - SW电子三级子行业中,涨幅前三分别为:被动元件(+7.38%)、数字芯片设计(+6.84%)、集成电路制造(+5.88%) [41] - SW电子行业个股涨幅前五分别为:芯原股份(+43.71%)、南亚新材(+32.67%)、盛科通信(+31.73%)、德邦科技(+29.88%)、易天股份(+28.77%) [44] - **全球及周边市场表现**: - 同期费城半导体指数(SOX)上涨1.11%,恒生科技指数上涨0.27% [48] - 截至2026年2月11日(中国台湾春节前最后一个交易日),中国台湾电子指数细分板块中,半导体板块上涨6.47%,电子板块上涨4.98% [49]
华科博士联手清华教授 跑出100亿机器人黑马
21世纪经济报道· 2026-02-25 00:12
公司融资与估值 - 近期连续完成两轮融资,累计金额近20亿元,估值突破100亿元大关 [1] - 本轮融资方包括云锋基金、红杉中国等机构,以及TCL创投、重庆产业母基金等产业和国有资本,老股东顺为资本、达晨财智大额追投 [1] - 2025年7月完成由京东领投的近6亿元Pre A+轮融资 [3] 创始人及团队背景 - 创始人兼CEO韩峰涛,42岁,本科毕业于华中科技大学自动化学院,博士师从机器人学术泰斗丁汉院士,深耕工业机器人行业十余年 [1] - 2014年从国企辞职创办珞石机器人,主导交付超2万台工业机器人,覆盖20多个行业场景 [1] - 联合清华助理教授高阳、工业机器人出海先行者郑灵茵于2024年创立公司 [2] - 骨干成员多来自UC Berkeley、清华、北大等顶尖学府,平均年龄不到30岁,在多模态大模型、机器人学、强化学习等具身模型核心领域有深厚学术与工程基因 [2] 产品与技术进展 - 团队自研具身大脑模型,打造轮式底盘加人形上身的“墨子机器人” [2] - 2025年底,“小墨”机器人正式投入宁德时代中州基地的新能源动力电池PACK生产线,负责电池接插件插接等复杂作业,稳定量产 [2] - 2026年1月中旬,开源Spirit v1.5模型,在RoboChallenge真机评测榜上以50.33%的成功率超越美国具身智能头部公司的Pi0.5模型,拿下全球第一 [5] - 过去两年,团队八成精力和资源投入数据处理,共积攒20万小时的视频数据,覆盖互联网人类视频、遥操作、可穿戴设备采集等 [6] 战略目标与行业展望 - 创始人定下目标“十年让全球10%的人拥有自己的机器人” [2] - 创始人认为2026年之于具身智能,就是2023年之于大语言模型 [3] - 创始人判断2026年不会是具身行业的落地生死之年,而是具身模型性能快速爆发的一年,公司会把绝大部分精力放在模型上 [5] - 创始人预测真正大规模落地或在2027年下半年到2028年 [5] 业务合作与应用场景 - 与京东在商用领域合作,墨子机器人在京东零售场景中替代人类进行讲解互动与产品操作演示,并共同探索京东云及Joyinside大模型在大型零售网络中的落地潜力 [3] - 融资后,创始人表示会放10%的精力在跟产投方合作,让具身机器人在他们的场景里落地,营收目标是1亿元 [6] 未来规划与数据目标 - 融资后首要目标是提升具身模型的性能,冲击100万小时数据大关,做到具身大脑的全球Top3 [6] - 创始人认为关键指标是获得100万小时的有效数据 [6]