物理AI
搜索文档
空间智能系列之三:物理AI:数字孪生、具身智能实现基石
申万宏源证券· 2025-11-14 20:45
报告行业投资评级 - 行业评级:看好 [1] 报告核心观点 - 物理AI是让AI走向现实世界的系统性工程,融合空间智能及世界模型,将引领下一个AI浪潮 [3][5][11] - 物理AI的实现依赖于世界模型、物理仿真引擎与具身智能控制器三大技术协同 [3][16] - 英伟达凭借“芯片-算法-平台”全栈布局,在物理AI领域具备先发优势 [3][25] - 数字孪生是物理AI目前最成熟的应用,智能驾驶与具身智能是未来最具想象空间的两大应用 [3][5][47] - 物理AI产业链已形成清晰的价值分布,各环节均出现重要变化和投资机会 [3][4][72] 物理AI概念与技术框架 - 物理AI核心结构可简化为“空间智能(感知基座)——世界模型(认知及决策中枢)——物理AI(系统整合载体)” [3][5][12] - 空间智能是AI感知、理解和推理三维空间及其内部物体关系的能力,当前先进的多模态大语言模型在空间推理任务上仍逊于人类 [13] - 世界模型为AI系统提供内部物理世界模拟器,使其能够预测行动结果而无需现实试错,学习方式多为无监督学习 [16] - 物理AI与传统AI在处理对象、核心能力、训练数据、技术基础和应用场景上存在显著差异 [24] - 物理AI的实现依赖于三大技术支柱协同:世界模型负责构建三维空间完整理解,物理仿真引擎负责实时计算物理交互,具身智能控制器连接虚拟推理和物理执行 [3][16] 英伟达的生态布局与优势 - 英伟达2019年提出Omniverse作为3D实时协作平台,已构建起较为完整的产业生态护城河 [3][25] - 2025年1月英伟达推出世界基础模型Cosmos并开源,能理解世界语言、物理特性、空间位置等要素,并合成物理数据 [30] - Cosmos模型获得重大更新,包括开源可定制的70亿参数推理视觉语言模型Cosmos Reason和专注于合成数据生成的Cosmos Transfer-2模型 [33][35] - 英伟达已建立完整的物理AI使用流程:构建虚拟3D环境(Omniverse)、生成合成数据(Cosmos)、训练验证(DGX平台)、部署(Jetson Thor等下一代机器人设备) [38][41][42] - Cosmos首批用户包括1X、Agile Robots、Figure AI、小鹏汽车等十余个国内外机器人和汽车厂商 [37] 世界模型进展与商业化应用 - 谷歌DeepMind推出通用世界模型Genie 3,基于文本提示以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境 [43] - 主流世界模型(如Meta V-JEPA、英伟达Cosmos、谷歌Genie3)在核心共性、技术侧重和优劣势上各有特点 [45] - 世界模型在训练端可生成符合物理规律的高质量合成数据,解决真实数据稀缺与长尾场景覆盖问题;在推理端通过物理推理模型实现感知-决策-执行闭环控制 [59][60][65] 物理AI核心应用场景 数字孪生 - 数字孪生是实体资产和流程的虚拟映射,企业借助其优化设计、仿真与运营效率,成为工业数字化转型的核心工具 [48] - 数字孪生通过集成多维数据源构建虚拟模型,并依赖物联网实现数字与物理世界的动态同步 [49] - 该技术为企业带来显著效益,宝马集团通过工厂数字孪生将规划效率提升近30%,纬创实现气流仿真速度提高15000倍 [52] - 数字孪生已渗透至制造业、能源、医疗与城市管理等广泛行业,如富士康通过虚拟工厂优化机器人部署 [54][57] 智能驾驶与具身智能 - 智能驾驶及具身智能目前主流方案包括端到端、VLA(视觉-语言-动作模型)、世界模型 [3][69] - 端到端模型是目前最成熟的前期方案,但因其“黑箱”输出遇到稳定性瓶颈;VLA模型凭借可解释性及LLM模型能力基础表现优异,但对边缘侧算力要求过高;世界模型可实现更前瞻推理,支持复杂思维实验,可能成为未来重要商业化路线 [3][69] - 智能驾驶领域代表厂商:特斯拉(端到端)、小鹏/理想/元戎(VLA)、英伟达/华为/蔚来/Momenta(世界模型) [69] - 具身智能领域代表:Google RT-2(端到端)、Figure(VLA)、DeepMind/Meta(世界模型) [69] 物理AI产业链梳理 芯片及控制器 - 芯片与控制器是物理AI的硬件中枢,承担环境感知、实时计算与运动控制的核心功能 [73] - 英伟达基于Blackwell架构推出Jetson AGX Thor和DRIVE Thor计算平台,Jetson Thor的AI计算能力是上一代Orin的7.5倍,最高达2070 TFLOPS(FP4),能效是上一代的3.5倍 [73][75] - 主控芯片领域呈现多元化竞争格局,除英伟达外,高通、地平线以及小鹏、蔚来等自研芯片厂商均在特定场景实现差异化竞争 [75][76] - 控制器厂商价值量提升,智微智能推出完整的机器人“大脑-小脑”分层方案,天准科技发布新一代千TOPS级高算力具身智能大脑产品星智007 [77][80][81] 数据供应 - 符合物理规律的高质量数据是训练物理AI模型的前提,获取成本与规模构成核心壁垒 [85] - CAE仿真与合成数据生成成为物理AI的“数据工厂”,索辰科技利用多物理场仿真技术生成高保真合成数据 [85][86] - CAD厂商积累大量细分场景下具备物理属性的空间信息,群核科技发布高质量3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景 [88] - 3D视觉厂商(思看科技、奥比中光、凌云光)负责现实世界感知与数字化,为仿真提供初始模型并进行数据采集校准 [91] 模型和算法 - 模型与算法构成物理AI产业的“智能核心”,产业格局呈现四类主要参与者:全球科技巨头(英伟达、谷歌)、专注于空间智能与世界模型的第三方平台、第三方算法解决方案提供商(如Momenta)、整机厂自研(小鹏、理想、优必选) [95][96][97][101] 落地和应用 - 落地应用是物理AI价值的最终体现,系统集成商与行业解决方案提供商是推动技术赋能千行百业的关键 [102] - 该环节核心竞争壁垒体现在对垂直行业的深度理解、与底层技术平台的深度合作关系以及提供端到端解决方案建立的客户粘性 [102][103] - 亚信科技将自研数字孪生平台、MaaS平台、智能体平台与NVIDIA Omniverse集成融合,为网络、工业制造、城市治理等场景提供一站式数字孪生解决方案 [104] 产业链核心标的 - 控制器:智微智能、天准科技、德赛西威 [3][109] - 数据供应:索辰科技、群核科技(拟上市)、思看科技、奥比中光-UW、凌云光 [3][112] - 模型和算法:索辰科技 [3][112] - 落地和应用:亚信科技 [3][112] - 整机厂商:小鹏汽车-W、极智嘉-W [3][112]
小鹏物理AI的尽头,是马斯克的现金流
搜狐财经· 2025-11-14 19:12
公司战略定位与市场表现 - 小鹏汽车通过科技日发布第二代VLA架构、Robotaxi、IRON人形机器人及飞行汽车等创新,定位从新能源车企转向特斯拉式的物理AI探索者,目标在2026年实现高阶人形机器人量产[3] - 科技日后公司美股股价在四个交易日内累计上涨约29%,但随后回调,11月12日下跌2.81%[2][3] - 摩根大通在三季度大幅减持小鹏汽车美股182.39万股,持仓环比下降99.7%至6204股,同期蔚来和理想也遭减持[5] 财务与业务规模对比 - 小鹏汽车市销率为2.54倍,远低于特斯拉的约15倍,双方体量差距巨大[5] - 2025年前十个月小鹏汽车累计交付355,209辆智能电动汽车,同比增长190%,但特斯拉仅三季度全球纯电车产量就达44.7万辆,交付49.7万辆[5] - 公司上半年总收入为340.9亿元,亏损11.4亿元,而特斯拉上半年收入418.3亿美元,净利润15.81亿美元,且早在2020年已实现全年盈利[9] 汽车业务结构与销量表现 - 2024年10月小鹏汽车交付智能汽车42,013辆,创公司单月交付新纪录,同比增长76%,环比增长1%[6] - 销量主力为起售价11.98万元的小鹏MONA M03,月销量维持在1.4万辆以上,占当月销量份额约四成,累计14个月交付超20万台[6] - 部分中型车销量下滑:小鹏P7+月销量从去年12月破万辆降至今年10月5568辆;小鹏G7从8月近7000辆降至3463辆;G9从5月超3500辆降至10月不足1000辆;高端车型X9从5月2767辆降至10月835辆[7] 研发投入与物理AI业务布局 - 小鹏研发费用从2024年约65亿元增至2025年约100亿元,重点投入软件领域[10] - 公司自研图灵芯片于去年8月流片成功,今年二季度量产,号称算力利用率达100%,可应用于智能汽车、机器人和飞行汽车[10] - 人形机器人业务预计还需投入500亿至上千亿元,可能需20年时间,目前处于早期阶段[10] 技术外销与合作进展 - 小鹏第二代VLA智驾系统与图灵AI芯片已获大众汽车定点,成为首发战略合作伙伴,并与现代汽车洽谈自动驾驶技术合作[13] - 公司定位开放生态,计划打包智驾、芯片、Robotaxi能力对外吸引客户,区别于特斯拉的专用芯片模式[13] - 小鹏在Robotaxi领域采取轻资产策略,定位技术供应商,提供开发工具包,合作伙伴可自建品牌,公司收取技术授权费或服务费[17] Robotaxi业务规划与挑战 - 公司计划2026年量产Robotaxi车型并启动试运营,推出三款专用电动车,采用纯视觉方案,无需高清地图和激光雷达[14][19] - 初期测试阶段小鹏负责运营,高德地图提供用户入口及路况数据支持,若测试不及预期则与合作伙伴共同推进商业化[16][17] - Robotaxi行业商业化进程缓慢,百度萝卜快跑仅实现部分城市单车营收平衡,部门整体未盈利,后发者小鹏面临市场空间有限的挑战[19]
分享认为理想缺二把手论是次要矛盾的视角
理想TOP2· 2025-11-13 22:25
文章核心观点 - 文章围绕理想汽车2025年销售不及预期的原因、公司应对思路及长期竞争力展开分析 [1][2] - 核心矛盾在于“理想缺二把手派”与“次要矛盾派”的视角分歧 前者认为公司需加强运营以改善当前销售 后者认为主要矛盾在于构建适应未来AI发展的新型组织形态 [1] - 公司长期竞争力根植于其在L4级自动驾驶、AI Agent智能座舱及重新定义智能车方面的清晰路线与顶尖产品定义能力 [10][12] 理想汽车2025年销售表现分析 - 分析框架基于价值创造、价值传递、价值交付三个维度 [3] - **L系列车型**:价值创造方面 硬件迭代小 自动驾驶芯片差异难以体现 车机AI理念领先但实用性不足 价值传递方面 销售团队难以专注 负面舆情影响 价值交付方面 25焕新版曾出现下摆臂问题 通过延长质保和免费更换解决 [4] - **i8车型**:价值创造存在严重非共识 产品力评价两极分化 价值传递方面 发布会SKU设置未达预期 爆发卡车舆情 价值交付方面 低配版选配率仅约2% 导致砍掉欣旺达版本 宁德时代产能受限 早期试驾车不足 [5][6] - **i6车型**:价值创造基于价格争议小 是很好的产品 价值传递无显著槽点 价值交付因主动砍掉欣旺达版本导致产能严重不足 [7][8] 预期理想汽车的解决思路 - **价值创造**:明确未来每年产品力提升幅度将显著高于2025款L系列的提升幅度 [9] - **价值传递**:将更重视负面舆情 但自2024年3月以来负责部门未形成有效合力 优势点传递效果待观察 [9] - **价值交付**:预期谋求工信部理想牌电池 新车产能问题存在不确定性 因备货过多有明确坏处 [9] 理想汽车的长期竞争力 - 公司前进路线清晰:实现L4级自动驾驶、基于真正AI Agent的软硬件结合智能座舱、并据此定义新的智能车 [10][12] - 未来可能推出其他物理AI终端(如眼镜)但短期内可能难以商业闭环 人形机器人是未来规划而非当前重点 [10][11] - 该技术路线将导致行业高集中度 理想是有力竞争者 因其具备顶尖的底层完备低熵产品定义能力 明显领先国内对手 [12] - 基于AI的软硬件结合是全新产业形态 与软件1.0时代差异巨大 公司自研MindGPT等是未来基础设施 [13] - 公司预计2030年收入可能扩大5到10倍 但员工总数可能不超过5万人 体现其对高效AI组织形态的预期 [14]
商汤联合研究团队提出“Puffin”AI模型
新浪财经· 2025-11-13 15:47
公司技术进展 - 公司联合南洋理工大学等学术机构发布名为《与相机共思》的论文,并提出名为“Puffin”的AI模型 [1] - 该模型具备从任意视角和方向理解并创造场景的能力,并能灵活拓展至复杂的跨视角理解与生成任务 [1] - 上述能力将应用于公司绝影世界模型的开发中 [1] 行业应用前景 - “Puffin”模型的能力可迁移至具身世界模型开发,以推动物理AI技术的落地应用 [1]
小鹏汽车系列十六: 发布第二代VLA、Robotaxi、全新一代IRON、汇天飞行体系,打造物理AI未来出行全新范式【国信汽车】
车中旭霞· 2025-11-13 14:02
公司战略定位升级 - 公司定位升级为“物理AI世界的出行探索者,面向全球的具身智能公司” [4][5] - 2025年科技日围绕“物理AI”发布四项重要应用,勾勒出物理AI未来出行的清晰图景 [4][5] 第二代VLA(视觉-语言-动作)融合系统 - 第二代VLA是一套模型,可同时应用于汽车、Robotaxi、机器人、飞行汽车,探索物理世界模型新范式 [6] - 采用端到端融合模式,省去复杂决策环节,推理效率更高,反应更快 [6] - 依托3万卡高性能计算单元和720亿参数云端基座大模型,实现每五天一次全链路迭代 [9] - Ultra车型将实现行业车端最高有效算力2250TOPS,模型推理效率较行业平均水平提升12倍,模型参数提升10倍 [9] - 基于第二代VLA即将上线“小路NGP”功能,复杂小路平均接管里程提升13倍,并行业首发“无导航自动辅助驾驶”Super LCC+ [10] - 2026年第一季度将面向小鹏Ultra车型全量推送第二代VLA,并面向全球商业伙伴开源,大众成为首发客户 [10] 小鹏Robotaxi - 公司计划在2026年推出三款Robotaxi车型并启动试运营 [12] - Robotaxi搭载4颗图灵AI芯片,车端算力高达3000TOPS,采用纯视觉方案,不依赖激光雷达与高精地图 [12] - 预埋双冗余硬件架构,并构建全新车外交互体系,如行业首发遮阳板车外显示 [13] - 2026年将同步推出全新智驾版本Robo,与Robotaxi同源,满足用户多样化需求 [14] - 将开放SDK与全球伙伴共建生态,高德成为首个全球生态合作伙伴 [16] 全新一代IRON人形机器人 - IRON定位为“最拟人的人形机器人”,拥有仿人脊椎、仿生肌肉和全包覆柔性皮肤,全身82个自由度 [17] - 搭载3颗自研图灵AI芯片,构建“VLT+VLA+VLM”的高阶大小脑能力组合 [20] - 行业首发应用全固态电池,具备极致轻量化、超高能量密度与极致安全优势 [21] - 推出“机器人主动安全保护”功能,并扩展“隐私数据不出机器人”的第四安全法则 [21] - 将优先进入导览、导购、导巡等商业场景,目标于2026年年底实现规模量产,宝钢成为生态合作伙伴 [23] 汇天飞行体系 - 发布两套飞行体系:全倾转固定翼飞行汽车A868和分体式飞行汽车“陆地航母” [24][25] - A868定位中长途多人需求,最高续航突破500km+,最高航速360km+/h,支持6人乘坐 [24] - “陆地航母”全球订单累计突破7000台,计划于2026年规模量产交付 [25] - 采用全域安全冗余设计,六轴六桨双涵道构型确保安全 [27] - 飞行汽车量产工厂已试产,规划年产能10000辆,初期年产能5000辆,每30分钟可下线一台飞行器 [28] - 将携手敦煌市政府于2026年推出西北首条低空自驾旅游线路 [28] 短期经营与产品周期 - 公司以Mona M03、P7+、G7为代表的新车型走量,纯视觉方案将高阶智驾渗透至20万以内市场 [4] - 单二季度销量同比增长242% [2] - 一季度销量同比增长331%,MONA M03新版本上市1小时大定破万台 [2] - 单四季度销量环比增长97% [2] - 小鹏新车型P7+上市当天订单超3万辆 [2] - “鲲鹏超级电动系统”基于全域800V高压碳化硅平台打造,明年相关车型放量 [4]
小鹏成“最像特斯拉的中国公司”?
第一财经资讯· 2025-11-13 12:22
公司战略升级 - 公司战略定位从“未来出行探索者,面向全球的AI汽车公司”升级为“物理AI世界的出行探索者,面向全球的具身智能公司”,旨在超越汽车AI化,拥抱数字世界与物理世界融合的“物理AI”时代 [2] - 业务版图覆盖物理AI时代的技术底座,包括模型、芯片、基础设施及上层终端(如汽车、Robotaxi、人形机器人、飞行汽车) [2] - 该战略使公司被市场视为最像特斯拉的中国公司,截至2025年11月7日,公司市值达214亿美元,与理想汽车相近,高于蔚来汽车的170亿美元 [3] - 在科技日展示第二代IRON人形机器人后,公司美股股价于11月6日盘中一度上涨超14%,市值再度超越理想汽车 [3] 第二代VLA模型技术 - 第二代VLA模型采用V+L到A的架构,将语言信号作为视觉信号的并行输入,共同决策动作,以减少第一代VLA模型两次语言转换带来的信息损耗 [5][6] - 模型开发投入3万张卡算力、1亿视频Clips(相当于普通人驾驶6.5万年遇到的极限场景之和)及20多亿元训练费用,于今年二季度跑通 [5] - 模型架构与特斯拉在ICCV 2025分享的框架类似,均未完全抛弃语言信号,而是将其与多模态感知信号融合决策 [7] - 公司自动驾驶产品高级总监确认第二代VLA既是VLA模型,也是世界模型,使用VLA数据训练世界模型 [9] - 据称,第二代VLA使公司自动驾驶升级节点提前近两年,在复杂小路场景的平均接管里程提升13倍(20公里复杂小路仅需接管1次),并涌现出未特意开发的能力(如红灯变绿前缓慢蠕动、见人招手自动停下) [11] - 计划于2026年第一季度向Ultra车型全量推送第二代VLA,并评估向Max车型迁移的可行性 [11] Robotaxi业务布局 - 公司计划于2026年推出3款Robotaxi车型并启动试运营,成为国内第一家进军Robotaxi市场的造车新势力 [12] - Robotaxi针对L4智驾系统设计,采用前装量产模式,搭载第二代VLA模型,不依赖高精地图和激光雷达,技术路线与特斯拉对标 [12] - 商业模式上,公司不扮演运营商角色,车辆将接入高德出行平台;同时计划推出面向C端用户的私人模式L4汽车,以分摊BOM成本及研发费用 [15] 人形机器人战略调整 - 第二代IRON人形机器人具备性别设定、仿人脊椎、仿生肌肉及全包覆“皮肤”,科技日展示其猫步行走能力引发市场关注 [16] - 公司战略重心从工业场景(如拧螺丝)转向导览、导购、导巡等服务场景,因手部硬件(灵巧手)技术难度高、成本高昂(一个手成本可请工人工作几年) [18][20] - 公司暂避开了行业公认难度最高的manipulation(交互控制)技术,优先发展locomotion(移动控制),认为工厂及家庭场景落地尚需3-5年 [18][20] - 公司强调人形机器人项目的核心是“如何商业量产”,而非融资或作秀 [20] 行业技术对比与挑战 - 特斯拉Robotaxi业务于2024年6月在奥斯汀启动试运营,使用改装Model Y,Cybercab车型计划2025年4月量产;其车辆仍配安全员,实际进度未达L4 [14] - 特斯拉人形机器人Optimus因手部及前臂技术难题量产延期,最初计划2024年量产5000台,后降至2000台,实际仅生产几百台;第三代原型机发布延至2026年第一季度 [19] - 从L2辅助驾驶到商业可行的无人L4自动驾驶需跨越技术及商业鸿沟,而非渐进过渡;纯视觉方案与多传感器融合路线的技术可靠性之争尚无定论 [15]
小鹏成“最像特斯拉的中国公司”?
第一财经· 2025-11-13 12:09
公司战略转型 - 小鹏汽车将自身定位从"AI汽车公司"升级为"物理AI世界的出行探索者,面向全球的具身智能公司",旨在摆脱单纯汽车制造商的标签 [7] - 公司业务版图涵盖物理AI时代的技术底座,包括模型、芯片、基础设施及终端产品(汽车、Robotaxi、人形机器人和飞行汽车) [7] - 这一战略使小鹏汽车被视为最像特斯拉的中国公司,截至2025年11月7日,特斯拉市值1.4万亿美元,小鹏市值214亿美元,与理想汽车相当,高于蔚来汽车的170亿美元 [7] 第二代VLA技术突破 - 第二代VLA采用V+L到A的架构,将语言信号与视觉信号并行输入模型,避免第一代VLA从V到L再到A两次转换造成的信息损耗 [11][12] - 模型训练投入3万张卡算力、1亿视频Clips(相当于普通人驾驶6.5万年遇到的极限场景),训练费用超过20亿元 [11] - 二代VLA在复杂小路场景的平均接管里程提升13倍,20公里复杂小路仅需接管1次,并涌现出未特意开发的能力如红灯变绿前的缓慢蠕动和自动识别招手行人 [20] - 计划2026年第一季度向Ultra车型全量推送第二代VLA,并评估迁移至Max车型的可行性 [20] 与特斯拉技术对标 - 小鹏二代VLA架构与特斯拉ICCV 2025分享的架构类似,均将多模态感知信号与自然语言解释共同决策动作输出 [15] - 小鹏二代VLA兼具VLA模型和世界模型功能,用VLA数据训练世界模型,与特斯拉将世界模型与智驾系统结合的做法相似 [17][19] Robotaxi业务布局 - 小鹏成为国内第一家进军Robotaxi市场的造车新势力,计划2026年推出3款Robotaxi车型并启动试运营 [22] - 采用L4智驾系统前装量产模式,不依赖高精地图和激光雷达,与特斯拉同为全球最激进方案 [22] - 商业模式上不扮演运营商角色,与高德合作接入出行平台,同时计划推出私人模式L4汽车以分摊BOM成本和研发费用 [25] 人形机器人战略调整 - 第二代IRON人形机器人侧重locomotion(移动控制)技术,通过猫步展示移动能力,暂避行业公认难度更高的manipulation(交互控制)领域 [28][30] - 推翻去年让机器人进工厂的战略,因手部硬件成本高(一个手费用可请工人工作几年)、易损坏 [28] - 优先布局导览、导购、导巡等服务场景,认为工厂和家庭场景需3-5年技术成熟期 [30] - 机器人演示引发市场积极反应,小鹏美股股价在演示后次日盘中一度上涨超过14% [27] 行业竞争态势 - 蔚来和理想明确不涉足Robotaxi领域,蔚来CEO李斌不看好该商业模式,理想CEO李想专注私人用车市场 [22] - 特斯拉Robotaxi实际进度未达L4,目前车辆仍配安全员,面临技术可靠性(纯视觉方案 vs 多传感器融合)和监管挑战 [25] - 特斯拉Optimus人形机器人因手部和前臂技术难题量产延期,最初计划2025年量产5000台,后降至2000台,实际仅生产几百台 [29] 量产时间表与关键节点 - 2026年被定为小鹏汽车的量产目标年,涵盖第二代VLA、人形机器人和飞行汽车的量产 [9] - 特斯拉Optimus第三代原型机发布延期至2026年第一季度,计划2026年底前完成首条产线建设(年产能100万台) [29]
守擂“AI王冠” 小鹏拆掉的拐杖不止语言
21世纪经济报道· 2025-11-12 22:24
公司战略与技术路线演变 - 公司创始人早在2019年就提出,电动化基础上的智能化是电动车与传统汽车的核心区别,并将智能驾驶视为“汽车下半场核心战场”[2] - 公司十年间坚持“All in 智驾”战略,技术从XPILOT 1.0迭代至VLA大模型时代,使智能化成为其最鲜明标签[2] - 面对技术瓶颈,公司内部同时推进两条技术路线,在第二代VLA模型出现“涌现”特性后,决定暂停传统路线研发,全面聚焦以大模型为核心的VLA体系[4] - 为打造第二代VLA,公司投入20亿元进行研发,在经历长期摸索后最终淬炼出新的自动驾驶系统[4] - 新的VLA范式将同步应用于公司的Robotaxi、人形机器人IRON以及飞行汽车上,旨在打造“物理AI”帝国[6] 行业竞争格局与挑战 - 公司在智能驾驶领域的领先地位正遭遇挑战,理想汽车在ICCV顶会上展示了“世界模型+训练闭环”的最新智驾方案,其开源数据集3DRealCar被AI顶会认可[3] - 华为公开挑战公司及理想等车企的VLA路线,宣布其ADS 4.0已推出,乾崑智驾系统搭载量已突破100万辆,覆盖11家车企、28款车型[3] - 行业内对VLA大模型的主要挑战集中在两点:一是对多模态数据量、算力等需求庞大,数据采集标注难度大;二是语言转化环节可能导致信息丢失和延迟[16] - 华为智能汽车解决方案BU CEO靳玉志质疑VLA路线,比喻为“让语言学家去学开车”;宇树科技创始人王兴兴则称VLA模型是“相对傻瓜式的架构”[17] 第二代VLA技术架构与突破 - 公司意识到传统解决corner case的方式难以实现L4级自动驾驶,因此决定创新智驾系统架构,兵分两路探索标准VLA和创新VLA[17][18] - 第二代VLA的核心突破在于“拆掉语言的拐杖”,即去除语言(L)这个中间转译环节,让模型直接从视觉(V)学习驾驶动作(A),以减少信息损耗并实现更大规模数据训练[21][22][25] - 第二代VLA的训练分为三个阶段:多模态输入层(看、听和感知)、核心编码层(车怎么“想”)、闭环执行层(车怎么“做”)[23][24][26] - 在核心编码层,公司参考大语言模型的“猜词游戏”自监督训练方式,让模型从海量“路景→驾驶动作”数据中自行领悟物理世界规律,无需人工标注[24][25] - 在闭环执行层,模型通过潜在表征tokens进行世界模拟和强化学习,最终通过轨迹表征tokens精准执行驾驶动作[26] 数据、算力与基础设施 - 公司实现技术“涌现”的关键在于大规模数据训练,其使用的视频数据量从4月的2000万Clips,增长到6月的5000万Clips,再到11月科技日宣布的近1亿Clips,相当于驾驶35000年遇到的极限场景总和[19][20] - 公司强调其训练数据均为各种Corner case和长尾数据,并认为其数据收集能力领先得益于出色的人工智能基础设施(Infra)[20] - 公司的云端算力集群规模迅速扩张,从4月的万卡规模,发展到6月正向两万卡水平前进,再到11月科技日宣布使用阿里云上3万张卡的算力集群,并计划明年扩张至5万甚至10万张卡[28] - 公司针对自研图灵AI芯片重新开发了编译器和软件栈,并对算子进行优化,最终实现了12倍的推理效率提升[30] 技术“涌现”的具体表现与未来展望 - 通过大规模数据训练,公司的自动驾驶系统展现出“涌现”特性,包括能识别“路人招手自动停车”、观察前车轮胎角度判断变道意图、以及推出“小路NGP”功能等[20] - 公司认为“涌现”是量变引发质变的结果,当模型规模突破临界阈值后,会展现出在较小模型中完全不存在的复杂能力,其理念师承大语言模型ChatGPT[19] - 公司下一代VLA的目标是实现完全端到端的自动驾驶,其核心创新在于去除了语言中间层,从而能够处理更大规模参数量和数据训练量[21]
守擂“AI王冠”,小鹏拆掉的拐杖不止语言
21世纪经济报道· 2025-11-12 22:09
公司战略与技术路线演变 - 公司创始人早在2019年就提出“如果只有电动化,电动车没有未来”的观点,将智能化视为汽车下半场的核心战场,并长期坚持“All in 智驾”的战略[1] - 公司在自动驾驶研发上同时推进两条技术路线,当第二代VLA模型在训练中表现出“涌现”特性后,决定暂停传统路线研发,全面聚焦于以大模型为核心的VLA体系[3] - 为打造第二代VLA,公司投入高达20亿元进行研发,经历了长期探索和自我怀疑,最终在技术突破后解决了此前难以解决的问题[3][23] 新一代VLA技术架构与突破 - 公司的新一代VLA技术拆除了“语言”作为中间转译环节,实现了从视觉到动作的直接映射,解决了标准VLA因语言转换导致的信息损耗和延迟问题[15][18] - 第二代VLA的训练采用自监督模式,无需人工标注,让模型直接从海量的“路景→驾驶动作”数据中学习物理世界规律,从而能够处理更大规模的数据[18] - 新架构的执行层包含两个并行步骤:通过潜在表征进行世界模拟和强化学习,以及将驾驶方案拆解为轨迹表征后精准执行动作[19] - 技术突破后,自动驾驶系统展现出前所未有的能力,如自动识别路人招手停车、观察前车轮胎角度判断变道意图等“涌现”行为[13] 数据、算力与模型规模 - 公司用于训练的数据量快速增长,从4月的2000万Clips,到6月的5000万Clips,至11月科技日已使用近1亿Clips数据,相当于驾驶35000年遇到的极限场景总和[13] - 公司的云端算力集群规模持续扩大,从2024年初的万卡水平,发展到6月向两万卡迈进,至11月科技日已在阿里云上使用3万张卡,并计划在明年扩展至5万甚至10万张卡[21] - 通过优化针对图灵AI芯片的编译器和软件栈,公司第二代VLA的推理效率提高了12倍[21] 行业竞争与挑战 - 公司在智能驾驶领域的领先地位面临激烈挑战,理想汽车在ICCV顶会展示了“世界模型+训练闭环”方案,华为ADS 4.0乾崑智驾系统搭载量已突破100万辆,覆盖11家车企、28款车型[2] - VLA技术路线受到行业挑战,主要集中于两点:对多模态数据量、算力等资源需求庞大,以及语言转换步骤可能导致信息丢失和决策延迟[11] - 公司自动驾驶研发曾进入瓶颈期,意识到仅靠解决个别极端案例无法实现L4级自动驾驶,必须通过创新架构突破系统上限[11] 组织架构与人才传承 - 公司于10月9日进行重要人事调整,原智驾负责人李力耘卸任,由世界基座模型负责人刘先明接棒自动驾驶一号位[1] - 自动驾驶技术的演进是薪火相传的过程,前任负责人吴新宙完成了开疆拓土,李力耘实现了量产落地,为刘先明推动技术向物理AI时代跨越奠定了基础[10] - 刘先明博士在6月的CVPR顶会上发表的演讲,奠定了公司整个智驾框架的基础,其提出的三阶段基座模型是技术演进的核心[5][6]
再见黄仁勋,软银58亿清仓英伟达,All in OpenAI
36氪· 2025-11-12 17:22
软银的战略调整 - 软银清仓其持有的全部3210万股英伟达股份,套现58.3亿美元 [1] - 同时出售价值约92亿美元的T-Mobile股份以回笼资金 [2][10] - 此次资产出售主要为后续大规模AI投资布局筹集资金,包括对OpenAI的承诺及“星际之门”等项目 [6][10] 对英伟达的投资历史 - 软银曾是英伟达最大股东,但在2019年清仓近5%股份,当时以36亿美元售出,较40亿美元入手价亏损 [3] - 若未提前抛售,软银将错失高达2500亿美元的潜在收益 [4] - 清仓后软银又于2024年第四季度和2025年第一季度回补头寸,截至3月底投资额约30亿美元,最终在10月将持有的3210万股全部卖出 [5] 对OpenAI的巨额押注 - 2024年3月,软银同意牵头对OpenAI进行一轮最高达400亿美元的融资,公司估值达3000亿美元 [13] - 2024年10月,软银作为财团成员之一,以5000亿美元估值从OpenAI员工手中收购了价值66亿美元的股份 [13] - 自软银投资以来,OpenAI估值已上涨146亿美元,市场对软银的估值越来越依赖于其与OpenAI的深度绑定 [13] 市场反应与影响 - 软银清仓英伟达的消息导致英伟达股价当日下跌近3%,软银自身股价下跌超5% [2] - 该举动加剧了市场对“AI泡沫”的担忧,拖累标普500指数,同期CoreWeave因合同延迟股价暴跌9%进一步加剧紧张情绪 [6][9] - 软银CFO表示出售英伟达股份是“为了让资金更好地用于融资”,但未进一步说明细节 [9] 在“物理AI”领域的布局 - 软银认为“物理AI”(如机器人技术、自动驾驶)是人工智能革命的下一波浪潮 [17] - 公司于2024年10月以54亿美元收购瑞士ABB的机器人部门,交易预计2026年完成 [17] - 公司还持有Wayve和Bear Robotics的股份,并创建“Robo HD”部门整合机器人业务,承诺投入5.75亿美元用于该部门投资开发 [20] 其他重要投资与收购 - 软银计划以65亿美元收购美国芯片设计公司Ampere Computing [2][20] - 公司股价在2024年以来已上涨超两倍,尤其在OpenAI宣布彻底摆脱非盈利结构后出现暴涨 [13]