Workflow
World Model
icon
搜索文档
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
自驾行业今年还是很精彩的,在整体下沉的关键节点,都很卷。卷技术、卷成本、卷效率。我们今年亦是如此,扩充了很多 B端的客户,也开始尝试从线上走向线下。C端也慢慢从普适性的能容逐渐专业化和精细化。 上半年不少自驾的同学转行去了具身,包括现在也是如此,L4/具身/无人机几个行业在大批量招人,而自驾又是相对成熟的 AI领域,所以自驾的算法人才非常受欢迎,几个头部企业的薪资很到位(大疆/宇树/智元/哈啰等等)。 下周就要迎来26年了,也到了年末盘点的时候。 搞过自驾的人,用过大集群,解过各种corner case,上下游协同能力强,这些都是其他几个行业所欠缺的。 今年,自驾的头部技术收敛到几个大方向上:一段式端到端、VLA、世界模型(重建+仿真)、强化学习。我们接触到的中 游厂商还在攻坚OCC、无图、多传感器融合感知等等,明年这些公司都有大量hc开放。 今年,自动驾驶之心的付费社区的成员正式突破4000人了。如果想看技术路线的发展、各类圆桌、研报、职位信息,可以多 来逛逛。 新的一年,也感谢新老粉丝的支持,我们为大家推出了众多福利优惠。新的一年大家再接再厉。 星球新人六折券,续费五折券 欢迎添加助理咨询活动 ...
2026 年 AI 预测:行业将迎来断崖式迭代,最关键的下注机会在哪?
Founder Park· 2025-12-26 19:35
以下文章来源于海外独角兽 ,作者Best Ideas 社群 海外独角兽 . 研究科技大航海时代的伟大公司。 2025 年,已经剩余不足 1% 了。 站在年末,回顾这一年 AI 行业的变化。我们发现,AI 的竞争已经进入到了一个新阶段,从单一的「模型强弱」转向技术体系、商业路径、基础设施和生 态构建的综合博弈。 「海外独角兽」组织了一场「2026 AI Best Ideas」社群讨论,通过整合来自 AI researchers、创业者、产品经理和投资人的多元视角,系统性地探讨了 2026 年 AI 领域的几个核心议题: 以下为 「海外独角兽」的 原文内容。 ⬆️关注 Founder Park,最及时最干货的创业分享 Google、OpenAI、Meta 等巨头公司在新一年的竞争格局会是怎样?各自的优劣势是什么? 为什么 World Model 是 下一代技术范式竞争的核心? AI 应用将会如何发展? 操作系统 vs 超级应用、Agent 模式兴起,终极形态会是什么? 光通信、存储、电力, Infra 是 AI 发展的重要瓶颈 ; 企业服务、金融预测和支付,AI 在这些垂直领域的落地路径会是什么样的? ..... ...
深度讨论 2026 年 AI 预测:最关键的下注点在哪?|Best Ideas
海外独角兽· 2025-12-25 20:04
最近我们 复盘 了去年「2025 AI Best Ideas」提出的 20 个关键预测,发现绝大部分关于技术方向与 格局演化的 AI 预测已经兑现。而站在当下看 2026 年这个关键时间节点,市场已经显现出了更明显 的分歧:Gemini 3 发布后,Google 能否保持长期领先?OpenAI 是否有机会在 2026 年实现逆转?在 AI 入口竞争中,是操作系统占优,还是超级 APP 更具潜力? 因此我们组织了一场「2026 AI Best Ideas」社群讨论,AI researchers、创业者、产品经理和一二级 投资人围绕 2026 年 AI 公司竞争格局、AI 应用与 Agent 形态、算力与 infra 瓶颈,以及 AI 在具体 行业中的落地路径等关键问题,展开了一次深入的讨论。 本篇文章并不是一份单一视角的年度判断,而是来自拾象 Best Ideas 社群集体讨论的精华开源。我 们希望它不仅是一份年度预测,更能帮助读者理解:AI 是一次真实且长期的生产力革命,在模型 厂商交替领先的格局中,真正的赢家不仅要关注技术实力,更要在高度不确定的环境中实现长期价 值。 ⬇️ 滑动或点击查看大图 ⬇️ 讨论主 ...
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 17:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
专访地平线副总裁吕鹏:做不好端到端就做不好VLA
21世纪经济报道· 2025-12-23 08:45
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,这一广阔的蓝海市场正吸引着地平线、Momenta等智驾厂商加速布局 [1][13] - 地平线于今年4月正式推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5和深蓝L06上市实现量产,两款车型上市短短两周后,HSD激活量便突破12000辆 [1][13] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:拓展生态合作模式,新增算法服务模式“HSD Together”,并与日本电装、大众合资公司CARIZON、HCT达成合作;引入更多生态合作伙伴,如元戎启行、卓驭等 [1][13] - 缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企正纷纷向地平线聚拢,公司目标是让城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3—5年内达成千万级量产规模 [2][14] 技术路线与研发投入 - 地平线敢于制定千万级量产目标的底气源于其在智驾端到端方案上的长期坚守与深耕,公司自2024年底便集中力量主攻端到端技术,90%的研发人力均投入到该方案的研发与量产落地工作中 [2][14] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需要建立在非常完整的端到端底座之上,没有扎实的端到端基座,高阶智驾就是空中楼阁 [2][9][10][14][21][22] - 地平线是目前行业内少数坚定选择端到端路线的厂商,其最早的端到端架构uni AD曾获得CVPR最佳论文,核心底气来自过去丰富的技术积累 [2][14][15] 技术方案详解 - 地平线HSD的端到端版本最核心的技术亮点是“光子进,轨迹出”,公司是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业 [4][16] - 所谓两段式端到端,并非一个模型,而是感知模型加规控模型,信息传递存在丢失;而一段式端到端可实现高维特征的无损传递,信息量更高,驾驶体验更接近人类直觉 [6][17] - 两段式端到端存在的原因是一段式方案若不够完善,输出轨迹会有缺陷导致无法控车,开发者会退而求其次增加后处理规则进行修正,但这些规则会限制模型上限并带来驾驶动作的割裂感 [7][18] - 分辨一段式与两段式端到端,对于从业者主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤进行,消费者最直观的体验是是否愿意在城市中安心使用该系统 [8][19] 竞争观点与未来展望 - 对于智驾技术路线之争,地平线认为WA或VLA都是基于端到端,语言(language)等模态应作为辅助项,而非开发核心,模型构建应模拟人类开车状态,即95%以上时间依赖直觉模型,仅在极度复杂场景下加入理解与推理 [9][21] - 未来更智能的端到端方案中,仿真闭环是关键核心技术,因为稀疏场景需要通过仿真生成数据验证,随着端到端成熟,遇到问题的场景会越来越稀疏 [10][22] - 公司认为未来最理想的智驾方案是在端到端直觉模型解决95%甚至99%场景的基础上,为剩余需要认知推理的场景叠加思维链理解能力,但一切前提是端到端直觉模型必须足够好 [10][22] - 作为智驾供应商,接下来的竞争核心应聚焦产品体验、安全性和市场认可度,而非追逐新名词和新概念,技术上公司会做好预研和储备 [11][22] - 地平线强调,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为端到端是VLA得以实现的基础 [12][24]
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 公司Wayve推出的GAIA-3是一个用于自动驾驶评估的规模化世界模型,它将世界建模从一个视觉合成工具转变为自动驾驶安全与评测的基石,旨在解决大规模评估自动驾驶系统时面临的成本高、数据效率低、罕见安全事件难以捕获等核心挑战 [1][4] GAIA-3的定位与目标 - 旨在将世界建模从视觉合成工具转变为自动驾驶评估的基石,生成的驾驶场景不仅逼真,而且结构化和有目的性,用于测量、比较并加速实现安全、可扩展的自动驾驶 [4] - 结合了真实世界数据的真实感与仿真的可控性,允许对真实驾驶序列进行精确、参数化的变体重现,例如在保持场景其他元素一致的同时改变自车轨迹 [6] - 其目标是确立生成式仿真作为衡量进展和证明整个具身人工智能领域安全性的主要工具 [20] GAIA-3的技术能力与规模 - GAIA-3是一个拥有150亿(15B)参数的基于潜在扩散(Latent Diffusion)的世界模型 [3][16] - 其视频分词器(video tokenizer)大小是前代GAIA-2的两倍 [3][19] - 训练计算量是GAIA-2的五倍,数据量大约是GAIA-2的两倍,覆盖了3大洲的8个国家 [16] - 模型规模相比GAIA-2增加了一倍,扩展了表征能力和生成精度,实现了更清晰的视觉效果、更一致的光照和更丰富的纹理细节 [18][19] GAIA-3的核心应用:安全关键场景生成与评估 - 可对真实世界驾驶序列进行受控且逼真的变体生成,在保持环境其他部分一致的同时改变自车轨迹,从而系统化生成碰撞和接近碰撞场景,用于可扩展、可复现的安全验证 [7] - 可以虚拟地、大规模地生成类似NCAP(新车评估规程)风格的测试,既可以在模拟的测试场环境中,也可以在不同的现实世界条件下进行 [7] - 生成安全关键场景时注重一致性,确保当仅自车行为改变时,场景的其余部分在物理上和视觉上保持连贯 [8] GAIA-3的核心应用:离线评估套件 - 通过动作条件控制自车行为,并结合“世界在轨”扰动,可以从单个记录序列创建一整套“假设”情景,形成结构化、可扩展、可重复且可测量的离线评估测试套件 [9] - 该评估套件比静态回放提供更丰富的诊断信号,能揭示驾驶策略在条件改变时的行为变化,其合成干预与道路实验之间的相关性研究表明,该模型能够可靠地预测相关策略性能 [9] GAIA-3的核心应用:化身迁移 - 支持化身迁移,可以从新的传感器配置重新渲染同一场景,只需使用目标摄像头配置的一个小型、非配对样本即可 [10] - 这意味着评估套件可以轻松地在不同的“化身”或不同汽车制造商(OEM)的车辆项目之间迁移,而无需进行配对采集 [10] GAIA-3的核心应用:鲁棒性与可解释控制 - 引入了受控的视觉多样性,允许场景的外观(如光照、纹理和天气)发生变化,而底层结构(几何结构和运动)保持一致,从而可以直接比较模型在不同视觉条件下的性能,大规模评估鲁棒性 [11] GAIA-3的核心应用:数据丰富化与调试 - 可以从少量示例中学习,并围绕它们生成结构化变体,从而将诸如刹车或并线等场景家族扩展为丰富且物理一致的测试集 [12] - 能够将罕见的故障模式(如在街道中央急刹车)转换到新的场景和地理环境中,帮助利用罕见的分布外示例来扩展数据集,用于针对性测试或再训练 [13][15]
《机器人年鉴》第 2 卷:如何训练你的机器人;地缘政治;稀土;萨根的预言-The Robot Almanac-Vol. 2 How to Train Your Robot; Geopolitics; Rare Earths; Sagan’s Prophecy
2025-12-15 10:51
行业与公司 * 本纪要为摩根士丹利全球具身人工智能团队发布的《机器人年鉴》第二卷,主题为“如何训练你的机器人、地缘政治、稀土、萨根的预言”[1] * 报告涉及行业为具身人工智能与机器人行业,涵盖机器人基础模型、世界模型、训练方法、边缘计算、地缘政治竞争及稀土供应链等多个细分领域[21][23] * 提及的公司众多,包括但不限于: * **科技巨头/上市公司**:NVIDIA(覆盖分析师:Joseph Moore)[76]、Google/Alphabet(覆盖分析师:Brian Nowak)[89][224]、Meta(覆盖分析师:Brian Nowak)[214]、Apple(覆盖分析师:Erik Woodring)[214]、Tesla[143]、Unity(覆盖分析师:Matt Cost)[169]、MP Materials(覆盖分析师:Carlos De Alba)[427]、Lynas(LYC.AX,覆盖分析师:Rahul Anand)[428]、Iluka Resources(ILU.AX,覆盖分析师:Rahul Anand)[429]、BYD(覆盖分析师:Tim Hsiao)[339] * **机器人/具身AI初创公司(私人公司)**:Skild AI[284]、Physical Intelligence[279]、1X Technologies[60]、Figure AI[59]、Covariant[62]、Field AI[63]、Agibot[61]、Apptronik[251] * **其他**:Epic Games(私人)[169]、Brookfield(覆盖分析师:Mike Cyprys)[199]、DJI(私人)[339] 核心观点与论据 **1 机器人技术范式转变:从预AI到后AI** * **预AI机器人**:局限于工厂,执行高度可预测、重复的任务,复杂度有限,需要有限的灵巧性,与人类交互有限或无交互[30] * **后AI机器人**:能够执行多样化任务、适应不同环境,可与人类交互,并具备持续学习能力[39] * **关键转变**:机器人正“逃离工厂”,进入家庭、农场、城市、空中、太空、军事和海洋等物理世界[45] **2 机器人基础模型(RFM)的核心概念与架构** * **定义**:RFM通过大规模机器人运动数据集进行预训练(实现广泛泛化),再针对特定任务(如抓取物体)进行后训练[53] * **与LLM/VLM的区别**: * **LLM/VLM**:基于互联网上易于抓取的文本/图像数据进行训练,输出文本、图像、代码等[96] * **机器人模型**:需要大量现实世界数据收集和模拟,输出是动作[100] * **类比人脑**:LLM主要对应大脑的创造性、解决问题、语言等功能区域(额叶、颞叶等),而物理AI则对应处理精细运动技能、平衡、协调的小脑和运动皮层,后者被描述为“最难的AI领域”[105][107] * **主流架构**:大多数基础模型基于视觉-语言-动作架构,通过神经网络处理视觉和语言输入,输出机器人动作[66][67] * **双系统方法**:开发者(如NVIDIA、Physical Intelligence、Figure)采用类似人脑的“快慢思考”双系统方法,系统1负责自动/本能反应,系统2负责通过推理确定任务中间步骤[70][72] **3 机器人训练方法、数据与挑战** * **训练方法**:主要有三种——遥操作(人类直接控制)、模拟(数字孪生+强化学习)、视频学习(基于人类或机器人视频)[140][143] * **方法对比**: * **遥操作**:能提供视觉和物理数据,相对简单,但耗时、不可扩展,数据在不同机器人形态间用处有限[147] * **模拟**:可无限扩展至多样场景,提供视觉和物理数据,但计算密集,存在“模拟到现实”的差距[152] * **视频**:基于真实世界,可通过摄像头捕获大量人类场景,理论上可从互联网抓取,但仅有视觉数据,可能需要更大样本量[154] * **特斯拉的实践**:尝试了所有三种方法,目前专注于模拟和视频学习[155] * **数据挑战与价值**: * **莫拉维克悖论**:对人类来说容易的技能(如抓取、在拥挤空间导航),对AI来说很难;反之,对人类难的技能(如多变量微积分),对AI可能很容易[127][130][132] * **物理世界的复杂性**:训练机器人执行简单任务(如从冰箱取瓶子)需考虑手指精确定位、身体平衡、肩膀角度、施加的力度、物体重心变化、环境导航、湿度、材料属性等无数细节,凸显物理AI的难度[116][120] * **数据的时效性**:最具价值的5分钟数据是“刚刚过去的5分钟”,仅次于“接下来的5分钟”,拥有最佳实时/涌现数据的公司具有重大优势[125][126] * **模拟与游戏引擎的作用**: * 模拟对机器人训练至关重要,因其更安全、可扩展且能不断改进[159] * 视频游戏本质上是模拟,游戏引擎公司(如Epic Games的Unreal Engine、Unity)已涉足该领域[166][169] * NVIDIA的显卡游戏历史为其机器人未来(如Omniverse模拟平台)奠定了基础[170][174] **4 边缘计算与分布式推理** * **NVIDIA的三计算架构**:模拟(合成数据生成)、数据中心(训练)、运行时计算机(如Jetson系列,在边缘进行实时推理)[176] * **边缘计算需求与潜力**: * **Jetson Thor**:最新一代边缘实时推理计算机,每套约3500美元,每台机器人至少配备一个,用户包括1X、Agility、Amazon、Boston Dynamics、Figure等[178][180] * **分布式推理云**:随着机器人数量增加,其搭载的推理算力可能形成分布式推理云,挑战集中式数据中心模式,优势包括能源效率、弹性/容错/安全性、灵活性/效率和低延迟[185][188] * **特斯拉的设想**:利用特斯拉AI5芯片连接其“机器人”群,形成分布式推理云,据摩根士丹利测算,假设1亿台机器人,每台2,500 TFLOPS,平均50%可用利用率,可提供约125,000 ExaFLOPS算力,相当于约700万个B200 GPU的算力,且功耗和冷却已由设备承担[193][195] * **边缘算力需求估算**: * **单机器人算力**:2024年,人形机器人约等效于2个NVIDIA Jetson Orin(275 TFLOPS),自动驾驶汽车和电动垂直起降飞行器约等效于2个NVIDIA DRIVE Thor SoC(1,000 TFLOPS)[234] * **总需求**:机器人销量增长将驱动边缘AI计算需求呈指数级增长[228] **5 地缘政治:中美在具身AI领域的竞争** * **竞争态势**:中美之间正在进行“AI霸权竞赛”[287] * **美国现状**:目前在AI模型(根据Scale AI的MASK基准测试)等方面可能“领先”[290] * **中国的战略与优势**: * **国家优先**:已将机器人列为国家优先事项[301] * **制造规模**:2024年工业机器人安装量占全球的54%,超过其他所有国家总和[302];正在将现有制造业产能转化为生产AI机器人[297] * **垂直整合**:在电动汽车、电池、无人机、摄像头设备等领域通过垂直整合和本土化实现主导地位,例如比亚迪75%的零部件自产,大疆的飞控、摄像头、电机、电池、云台、软件均自产[338] * **STEM教育**:在STEM教育方面超过美国[309] * **相互依赖与谈判**: * **美国需要中国**:中国主导全球电动汽车电池制造和稀土磁体生产[341][344] * **中国需要美国**:美国拥有巨大的私人财富和市场[348][349] * 双方已表现出在贸易及相关问题上谈判的意愿,议题可能包括TikTok美国业务出售、稀土供应、尖端芯片等[350][351] * **竞争驱动创新**:历史表明,从战国时期到冷战,国家间的竞争是创新的关键驱动力[321][325] * **“美国发明,中国规模化”模式**:报告以太阳能电池为例,美国于1954年发明,但到2023年近100%的太阳能生产依赖中国,2024年中国新增太阳能装机容量超过美国总装机容量的1.5倍[328][330][334] * **中期展望**:中美之间将是“竞争性对抗”[360] * **潜在合作案例**:传闻苹果与比亚迪在越南合作制造机器人[356][358] **6 稀土:关键瓶颈与供应链风险** * **重要性**:稀土元素(特别是钕、镝、铽等)对于制造用于机器人关节、电动汽车电机等的永磁体至关重要[367][373] * **供应高度集中**:中国主导稀土开采和精炼,2024年分别占约90%和近90%[400][404] * **供应链脆弱性**:历史上(如2010年对日本)曾出现供应中断,导致价格飙升[408][409] * **需求激增**: * **机器人需求**:不同机器人形态需要不同数量的钕铁硼磁体(公斤/台)[390] * **巨大增量**:仅人形机器人一项,到2050年就可能使磁体需求翻倍[393] * **总量预估**:到2050年,预计售出14亿台机器人,对应170万吨磁体需求(假设磁体化学性质不变)[396][398] * **挑战与应对**: * **无快速解决方案**:建立新的采矿和精炼产能需要时间,全球新矿启动通常需要超过20年[414][416] * **中国持续主导**:预计到2050年中国仍将保持主导份额[419] * **投资与替代努力**: * **美国政府介入**:2025年7月,美国国防部收购MP Materials 15%的股份,以扩大其磁体产能,这是自2008年金融危机救助以来罕见的政府直接持股[432][433] * **摩根士丹利看好的非中国稀土股**:MP Materials、Lynas、Iluka Resources[425] * **初创企业探索**:包括无稀土磁体、稀土回收、从采矿废料中提取稀土等方向的私人公司[436] **7 数据收集与未来展望** * **视觉数据收集**:报告预测,到2030年,人们将通过众多摄像头持续收集数据以训练机器人,而不仅是口袋里的一个摄像头[203][209] * **大型科技公司的数据探针**:Meta智能眼镜等设备可能成为重要的现实世界数据来源,据估计两年内使用量超过2000万副,约相当于特斯拉上路车辆数量的两倍[219] * **行业投入**:全球对物理AI模型与开发的初创企业风险投资规模巨大(截至2025年12月10日)[240] * **萨根的预言**:引用天文学家卡尔·萨根1995年的预言,警告美国制造业流失可能带来不利的地缘政治和社会后果[442][448] * **机遇**:AI与实体经济的交汇为证伪萨根的预言提供了机会,可能重塑全球制造业格局[455] * **摩根士丹利的战略承诺**:公司将致力于阐述具身AI的故事,帮助客户识别可能超越当今全球GDP规模的行业变革者和新市场创造者[458] 其他重要内容 * **报告性质与免责声明**:内容基于未经审计的信息,不构成投资建议,特别是涉及私人公司的部分仅供信息参考,投资者应自行尽职调查[1][463] * **术语简化尝试**:报告承认AI和机器人术语混乱,并尝试简化一系列术语,如世界模型、模仿学习、LLM、预训练、数字孪生等[47] * **列举的机器人基础模型与世界模型**:报告列出了多家公司/机构开发的基础模型和世界模型示例[54][63][80][84] * **全球机器人AI赋能者概览**:报告以图表形式展示了该生态系统的关键参与者[244] * **谷歌的数据规模**:提及谷歌处理的令牌数量从2024年5月的9.7万亿个攀升至2025年4月的超过万亿个,并在2025年6月达到980+万亿个[224]
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 12:34
公司发布通用世界模型GWM-1 - Runway公司发布了其首个通用世界模型GWM-1,该模型基于其最新的视频生成模型Gen-4.5构建 [1][8] - GWM-1采用了自回归架构,能够根据之前的记忆内容进行逐帧预测生成 [9] - 模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频 [10] 世界模型三大变体 - **GWM Worlds**:用于实时环境的模拟与探索,允许用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间 [12][13] - GWM Worlds能够根据用户提供的静态参考场景,实时生成一个包含几何图形、光照和物理效果的沉浸式、无限且可探索的空间 [13] - 该模型在智能体移动时能实时生成新场景,并保持长序列移动过程中的空间一致性,优于普遍只能生成有限长度帧序列的其他世界模型 [13] - 用户可通过文本提示改变环境的物理规则,例如约束地面骑行或解除重力实现空中导航,这有助于训练智能体在真实物理世界中的行动 [15][16] - GWM Worlds还可通过实时生成虚拟环境,为VR沉浸式体验提供支持 [17] - **GWM Avatars**:这是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作,适用于写实或风格化角色 [18] - 该模型能够渲染出逼真的面部表情、眼部动作、口型与语音同步以及自然的手势,并在长时间交互中保持稳定质量 [19] - 应用场景广泛,可作为个性化导师解释复杂概念,改变客户服务方式生成数字人,用于面试谈判等高压场景的模拟练习,以及让游戏NPC变得栩栩如生 [20] - GWM Avatars即将正式上线,并提供API供用户集成到自己的产品或服务中 [22] - **GWM Robotics**:这是一个更偏向于学习型模拟器的模型,通过学习机器人相关数据形成模拟能力,用于机器人操作 [23] - 该模型在机器人数据上训练,会根据机器人动作预测视频序列,主要承担两大任务:用于策略训练的合成数据增强,以及在模拟中进行策略评估 [24][25] - 通过生成合成训练数据,可以从新物体、任务指令和环境变化多个维度扩充现有机器人数据集,无需昂贵的真实世界数据收集,提升已训练策略的泛化能力和鲁棒性 [24][25] - 在GWM Robotics中可直接测试策略模型可行性,无需部署到实体机器人,这种方法比真实世界测试更快、重复性更高、安全性更显著,并能提供贴合实际的行为评估 [25][26] - 该模型能有效解决物理硬件成本高、损耗快、场景难复现等瓶颈问题,通过模拟环境替代实体硬件场景,让训练和评估更高效、更具性价比 [27] - 公司同时发布了GWM Robotics的Python软件开发工具包,该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中 [29] Gen-4.5模型升级 - Runway公司对其视频生成模型Gen-4.5进行了升级,新增支持原生音频生成和原生音频编辑 [30] - Gen-4.5现在可以生成逼真的对话、音效和背景音频,从而将创作内容扩充到更广的故事类型 [31] - 用户可以根据特定需求对现有音频进行任意方式的调整 [32] - 升级引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换 [33]
Pony Ai(PONY) - 2025 Q3 - Earnings Call Transcript
2025-11-25 21:02
财务数据和关键指标变化 - 第三季度总收入为2540万美元,同比增长72% [44] - 机器人出租车服务收入达到670万美元,同比增长89.5%,环比增长338.7% [45] - 车费收入实现三位数增长,飙升233.3% [45] - 毛利率从去年同期的9.2%提升至18.4%,毛利润为470万美元 [50] - 总运营费用为7430万美元,同比增长76.7%;非GAAP运营费用为6770万美元,同比增长63.7% [53] - 第三季度净亏损为6160万美元,去年同期为4210万美元;非GAAP净亏损为5500万美元,去年同期为4140万美元 [54] - 截至2025年9月30日,现金及现金等价物等为5.877亿美元,较2025年6月30日的7.477亿美元有所下降 [55] - 2025年前九个月累计自由现金流出为1.736亿美元 [56] 各条业务线数据和关键指标变化 - 机器人出租车业务:收入670万美元,同比增长89.5%;车费收入增长233.3%;日均单车净收入达到299元人民币,日均订单量23单 [45][51][77] - 机器人卡车业务:收入1020万美元,同比增长8.7% [49] - 许可和应用业务:收入860万美元,同比增长354.6% [49] 各个市场数据和关键指标变化 - 在中国一线城市,用户需求增长推动机器人出租车业务强劲增长 [45] - 海外市场机器人出租车收入快速增长,业务已拓展至8个国家 [47][48] - 第三季度进入卡塔尔新市场,并与Mowasalat合作 [17] - 在韩国获得全国性机器人出租车许可 [18] - 在欧洲,计划与Stellantis合作部署测试车辆 [18][19] 公司战略和发展方向和行业竞争 - 成功在香港交易所完成双重主要上市,募资超过8亿美元,为大规模商业化提供资金 [4][5] - 加速量产,预计2025年底车队规模将超过1000辆,2026年扩大至3000辆以上 [5][11][12] - 推行"卫星模式",与第三方伙伴(如Sihu集团、Sunlight Mobility)合作,以轻资产模式加速车队扩张 [8][15][47] - 技术战略聚焦全栈集成和世界模型,通过高保真模拟和强化学习实现无人驾驶技术的自我迭代 [24][25][26] - 通过优化自动驾驶套件设计,第七代机器人出租车的底成本较上一代降低70%,并预计为2026年生产的平台再降20% [32][33] - 行业新进入者面临业务、监管和技术三大挑战,公司凭借先发优势和规模化运营建立壁垒 [84][85][86][87][88][89] 管理层对经营环境和未来前景的评论 - 车队规模的扩大创造了"向上螺旋"效应:更短的等待时间、更好的用户体验、更高的车辆利用率和更优的定价策略 [5][9][10][62] - 第七代机器人出租车在广州实现城市级单位经济盈亏平衡,验证了可行的商业模式,为进一步扩张奠定基础 [8][43][75] - 香港上市募资将用于加速车队扩张、优化平台规模化和加深研发投入 [5][6][57] - 对实现2025年1000辆车队目标并提前完成充满信心,预计2026年车队将超过3000辆 [11][12][57][58] - 海外市场具有高增长潜力,公司将选择具有强大移动需求、发达基础设施和支持性监管环境的市场进入 [116][117][118] 其他重要信息 - 公司管理层乘坐完全无人的第七代机器人出租车参加此次财报电话会议 [7] - 第七代机器人出租车已在北京、广州、深圳正式启动完全无人的商业服务 [7] - 发布了第四代机器人卡车,预计2026年投入生产和初步车队部署 [20] - 远程辅助与车辆的比例预计在年底达到1:30 [35][78][112] - 公司与优步、Bolt等全球叫车平台合作,并利用其生态系统进入中东等国际市场 [19][20] 总结问答环节所有的提问和回答 问题: 关于今年和2026年的车队规模更新以及在不同城市的部署计划 [61] - 公司预计将超越此前设定的2025年底1000辆机器人出租车的目标,并保守预计2026年车队将超过3000辆 [62] - 车队密度的增加创造了更短的乘客等待时间,从而带来更好的用户体验和更高的车辆利用率,形成强劲的增长势头 [62] - 通过"卫星模式"与车队管理方合作,能以更少的资本支出部署更大规模的车队 [63] - 部署计划将深化现有市场(中国一线城市)的运营,同时拓展更多国内城市和海外市场 [63][64] 问题: 随着部署更多车辆,车费收入的前景如何 [66] - 第三季度车费收入增长约233%,即使车队仍由第五代和第六代车辆组成 [67] - 增长由需求端(用户体验改善、用户注册量翻倍)和运营端(车队调度优化、等待时间缩短约50%、上下客点增加)共同驱动 [67][68][69][70] - 随着第七代车辆的持续加入和车队规模指数级增长(2026年目标超3000辆),预计将产生更好的网络效应,从而提升单均价值 [71][72] 问题: 关于城市级单位经济盈亏平衡背后的假设,包括日均订单、定价、运营时长和远程辅助比例 [74] - 该里程碑在广州实现,日均单车净收入为299元人民币,基于11月23日前两周的平均数据 [76][77] - 日均订单为23单 [77] - 成本端主要包括基于6年使用寿命的硬件折旧,以及充电、远程辅助、地面支持等运营成本 [78] - 远程辅助与车辆的比例正朝着1:30的目标迈进 [78] 问题: 对Level 4自动驾驶领域新进入者(特别是电动汽车制造商)的看法,以及主要的技术和运营挑战 [82] - 新进入者增多表明行业认可度提升,是好事,但行业门槛很高,目前尚无新进入者能在开放道路上部署完全无人的车队 [84][85] - 挑战主要来自三个方面:业务方面(用户获取、车辆生产、车队管理等,先发者具有优势)[86][87];监管方面(安全要求高,许可获取过程漫长)[88][89];技术方面(需要先进的世界模型和模拟训练环境)[90][91] 问题: 运营区域快速扩张的主要因素,以及是否使用大语言模型推动L4自动驾驶 [97] - 技术栈本身为泛化而构建,L4原生架构能处理不同区域的极端案例,扩张速度的关键在于车辆数量,而非技术 [98][99][100][101] - 大语言模型由于存在幻觉、高延迟以及依赖人类数据(可能学习人类驾驶错误)等固有特性,不适用于L4车载驾驶模型,但公司将其用于研发辅助,如人机交互和工程生产力工具 [102][103][104][105] 问题: 与多家OEM合作是否可能通过只与一家OEM合作来提高运营杠杆 [107] - 现实是不同地区的政府和居民对本地品牌出租车有强烈偏好,与多个本地OEM合作有助于快速进入不同市场 [108] - 将自动驾驶套件适配不同车辆虽然带来技术挑战,但也展示了技术泛化能力,未来能成为竞争优势 [109][110] 问题: 机器人出租车遇到困难时为何使用远程辅助而非远程控制或人工接管,背后的技术差异 [111] - 远程辅助从不通过方向盘或踏板控制车辆,而是响应服务请求提供支持建议,车辆始终保持独立决策和驾驶,无需依赖网络延迟 [112] - 典型应用场景如临时交通管制,系统可请求远程辅助确认决策,AI算法的进步正不断提升远程辅助与车辆的比例 [112][113] 问题: 对中东地区颁发完全无人驾驶机器人出租车许可证的看法以及公司的海外战略 [116] - 公司全球战略聚焦于具有高增长潜力的市场,评估标准包括市场规模、政府支持力度和当地合作伙伴的实力 [117] - 目前已在8个国家开展机器人出租车业务,第三季度新增卡塔尔市场,海外机器人出租车收入快速增长,未来将继续寻找好的增长机会进入其他全球市场 [118][119]
Pony Ai(PONY) - 2025 Q3 - Earnings Call Transcript
2025-11-25 21:02
财务数据和关键指标变化 - 第三季度总收入为2540万美元,同比增长72% [44] - 机器人出租车服务收入达到670万美元,同比增长89.5%,环比增长338.7% [45] - 其中车费收入实现233.3%的同比增长 [45] - 毛利率从去年同期的9.2%提升至18.4%,毛利润为470万美元 [48] - 总运营费用为7430万美元,同比增长76.7%;非GAAP运营费用为6770万美元,同比增长63.7% [50] - 净亏损为6160万美元,去年同期为4210万美元;非GAAP净亏损为5500万美元,去年同期为4140万美元 [50] - 截至2025年9月30日,现金及现金等价物等为5.877亿美元,较6月30日的7.477亿美元有所减少,主要由于对合资公司注资及车辆采购等资本支出 [51] - 香港IPO融资超过8亿美元,为资产负债表提供显著支持 [4][52] 各条业务线数据和关键指标变化 - **机器人出租车业务**:收入增长强劲,主要受中国一线城市用户需求增长、车队运营效率提升和定价策略优化驱动 [45] 车队规模预计年底超过1000辆,2026年扩大至3000辆以上 [5][11][52] - **机器人卡车业务**:第三季度收入为1020万美元,同比增长8.7% [47] 第四代机器人卡车预计2026年投产,其自动驾驶硬件套件成本将降低70% [20][47] - **技术许可与应用业务**:收入为860万美元,同比增长354.6%,主要受自动驾驶域控制器需求推动 [47] 各个市场数据和关键指标变化 - **中国市场**:在广州、深圳、北京和上海(浦东金桥和花木区域)推出全无人驾驶商业服务 [7][13] 广州市场已实现城市级单位经济效益盈亏平衡 [8][43] - **海外市场**:业务已拓展至8个国家,包括中国、中东、东亚、欧洲和美国 [17] 第三季度进入卡塔尔市场,并与Mowasalat合作开始路测 [17][18] 在韩国获得全国性机器人出租车许可 [18] 与Uber、Bolt等全球网约车平台合作,旨在进入中东并拓展至其他国际市场 [19] 公司战略和发展方向和行业竞争 - **规模化战略**:通过扩大车队规模产生网络效应,缩短等待时间,提高车辆利用率,形成增长螺旋 [5][9][10] 推行“卫星模式”,与第三方伙伴(如深圳丝湖集团、阳光出行)合作,由对方出资购买车辆,公司收取技术许可费和车辆销售收入,实现资产轻型化和资本高效扩张 [15][46][52] - **技术战略**:坚持全栈技术整合,早期押注世界模型和强化学习,实现无人监督、自我改进的闭环训练 [24][26][27] 世界模型满足高保真交互模拟、复现规模化现实 corner case、基于AI的学习评估器三大标准 [28][30][31] 技术栈具备泛化能力,可快速适应新市场和新平台 [38][39][40] - **生产与成本**:Gen7机器人出租车自动驾驶套件成本较上一代降低70%,并为2026年生产平台进一步降低20% [33] 生产加速,截至11月已有超过600辆Gen7下线,总车队规模超过900辆 [11] - **行业竞争**:新进入者面临业务、监管和技术三大挑战 [74][75][76] 公司作为先行者,在品牌知名度、成本优化、合作伙伴关系等方面具备优势 [74] 技术上,公司早在2020年就开始开发基于强化学习的自动驾驶,在世界模型方面拥有先发优势 [25][77] 管理层对经营环境和未来前景的评论 - 香港成功上市是公司重要里程碑,为大规模生产和商业化提供充足资金 [4][5][22] - Gen7机器人在广州实现城市级单位经济盈亏平衡是关键里程碑,验证了可行的商业模式,为快速扩张奠定基础 [8][43][58] - 中国一线城市是网约车最大市场,在此实现盈亏平衡具有重要商业意义 [66] - 车队扩张本身是高效的自我强化营销引擎,车辆作为移动广告吸引新用户 [9][10] Gen7推出后一周内新注册用户数几乎翻倍 [10] - 未来将维持有纪律的投资,以加速大规模商业部署 [50] 凭借已验证的运营模式和IPO资金,公司处于独特地位,能将增长势头转化为可持续的盈利增长 [52][53] 其他重要信息 - 公司于2025年11月6日在香港交易所完成双重主要上市,股票代码2026,融资超过8亿美元,成为今年全球自动驾驶领域最大IPO [4] - 管理层团队在财报会当天乘坐全无人驾驶的Gen7机器人出租车抵达深圳办公室,以展示技术进步 [7] - 用户体验持续优化,包括智能重新定位功能、语音助手等,旨在将座舱升级为AI驱动的移动终端 [37] - 远程辅助与车辆比例正提升,预计年底达到1:30 [35][68] 远程辅助提供建议而非远程控制,车辆始终保持独立决策,确保安全不依赖网络延迟 [92][93] 问答环节所有提问和回答 问题: 关于今年和2026年的车队规模展望以及在不同城市的部署计划 [55] - 公司预计将超越年底1000辆的目标,并保守预计2026年车队将超过3000辆 [56] 车队密度创造更短等待时间和更好用户体验,从而形成增长螺旋 [56] 部署计划将深化现有市场(一线城市),同时拓展更多国内新城市和海外市场,策略是与当地伙伴和政府深度合作 [57][58] 问题: 车费收入的增长前景如何 [60] - 车费收入在第三季度增长233%,即使当时车队仍以Gen5/Gen6为主 [61] 增长受需求和运营两端驱动:需求端用户数翻倍;运营端等待时间缩短约50%,在深圳接送点数量增长超300% [62] 随着Gen7车辆增加、车队规模指数级增长(2026年超3000辆)以及服务区域扩大,预计将维持强劲增长势头 [63] 问题: 关于城市级单位经济盈亏平衡的假设细节,如每日订单、定价、运营时长和远程辅助比例 [65] - 该里程碑在广州实现,每日单车净收入达到299元人民币,基于23个日均订单 [67] 成本端主要包括基于6年使用寿命的硬件折旧和运营成本(充电、远程辅助、地勤等) [68] 远程辅助比例正朝着1:30的目标迈进 [68] 此里程碑为卫星模式和进一步扩张奠定了战略基础 [68][69] 问题: 对新进入者(如电动车企)的看法以及面临的技术和运营挑战 [71] - 新进入者增多表明行业潜力和资源投入增加,是好事 [72] 但行业门槛高,目前尚无新进入者实现全无人驾驶车队上路 [73] 挑战包括业务(用户获取、车辆生产、车队管理等)、监管(需逐步证明安全性、获取许可)和技术三大方面 [74][75][76] 技术上,公司早在5年前开始研发世界模型,具备先发优势,世界模型的闭环训练减少对真实数据的依赖,能有效处理 corner cases [77][78] 问题: 运营区域快速扩张的主要因素以及大语言模型在L4自动驾驶中的应用 [81] - 技术栈本身为泛化而建,例如在上海浦东和深圳南山新区域扩展至全无人驾驶仅需数周,无需额外模型训练 [82][83] 扩张速度关键取决于车辆数量,避免密度被稀释 [83] 关于大语言模型,由于其存在幻觉、高延迟以及依赖人类数据(可能学习人类错误)等固有特性,不符合L4对安全和低延迟的非妥协要求,因此不用于车载驾驶模型,但用于研发中的AI人机交互、工程生产力工具等 [84][85] 问题: 与多家OEM(BAIC、GAC、Toyota)合作是否考虑通过与单一OEM合作来提升运营杠杆 [88] - 现实是各地政府和居民对本地品牌车辆有强烈偏好,大规模部署时需要与不同地区本地OEM合作以快速进入市场 [89][90] 将自动驾驶套件适配不同车辆虽是技术挑战,但也展示了技术泛化能力,未来能成为加速区域扩张的竞争优势 [90][91] 例如在欧洲新增了与Stellantis的合作 [91] 问题: 机器人出租车遇到困难时为何使用远程辅助而非远程控制或人工接管,其技术差异 [92] - 远程辅助从不通过方向盘或踏板控制车辆,而是响应服务请求提供支持建议,车辆始终独立驾驶和决策 [92] 辅助仅在车辆请求时启动,车辆根据实际情况及时决策,不依赖网络延迟,确保安全 [92][93] 典型案例如临时交通管制,系统请求辅助以确认决策 [93] AI算法进步正不断提升远程辅助与车辆的比例 [93] 问题: 对中东国家发放全无人驾驶牌照的看法以及公司的海外战略 [96] - 公司使命是“自动驾驶无处不在”,具备全球雄心 [96] 海外拓展聚焦于具有高增长潜力的市场,评估标准包括市场规模、政府支持度和监管环境、当地合作伙伴的实力 [96] 目前已进入8个国家,例如第三季度通过合作进入卡塔尔市场,海外机器人出租车收入快速增长,预计势头将持续,未来将进入有良好增长机会的其他全球市场 [97][98]