世界模型
搜索文档
具身智能无共识,就是最好的共识
36氪· 2025-11-26 07:32
文章核心观点 - 具身智能行业在2025年末仍处于技术探索早期,尚未形成统一的技术发展共识,但这种“无共识”状态被视作具有积极意义,它打破了单一技术路线的垄断,为不同背景的团队提供了平等的试错空间,并为技术创新预留了弹性空间 [1][3] - 行业认为,真正的具身智能并非源于一条预设的完美路径,而是通过模型、数据和架构领域的持续试错、冲突与调和“雕刻”而成,当前的不完美状态恰恰是领域生命力的体现 [1][14] 技术路线与模型发展 - **世界模型价值与局限**:世界模型的核心价值在于“预测”物理交互,对机器人底层控制至关重要,但其短板突出,难以成为万能方案,主要问题包括:训练数据多依赖人类行为视频,与机器人身体结构差异大,帮助有限;在真实复杂场景(如做饭、装配)中预测精度仍不足 [4][5] - **专属模型需求**:行业共识认为需要打造平行于大语言模型的具身专属模型,例如以“动作”为核心的“Large Action Model”,或能同时控制动作和预测物理规律的“物理世界基础模型”,因为物理世界的精细交互(如摩擦、力反馈)无法用语言准确描述 [6] - **架构革新探索**:Transformer架构在具身智能领域的适用性受到质疑,因其以语言为核心的处理逻辑与物理世界“视觉-动作”直接交互的操作逻辑相悖,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,以减少语言中介的损耗 [7][8] 数据策略与需求演变 - **数据来源的适配选择**:行业没有统一的数据使用答案,普遍采取多源融合、按需选择的策略:1) **真机数据**:保真度高,是精细操作场景的首选和高质量数据的来源,被视为构建数据飞轮的起点 [9];2) **仿真数据**:成本低、可规模化,是底层控制训练和生成极端场景数据的主力 [9];3) **视频数据**:包含时空、因果等多维度信息,能大规模获取,是训练基座模型、认识世界的重要补充,但缺乏力反馈、触觉等精细信息 [10] - **数据需求全方位升级**:行业对数据的需求在“数量”、“质量”和“种类”上均提出更高要求:1) **数量**:期待“互联网级别”或“具身智能互联网”级别的海量数据,当前业内构建的27万小时真机数据集仍远未达到海量标准,不足以引发质变 [11];2) **质量**:高质量数据比海量低质数据更有价值,在具身场景中,数据质量比总量更能拉开量级差距,金字塔顶尖的真机数据虽少但至关重要 [13];3) **种类**:需丰富多模态数据(如触觉、力反馈),当前能力多承袭基座模型的视觉与语言,真正物理交互的模态数据稀缺,未来数据采集需全面记录机器人动作、环境变化、交互反馈及人类需求 [13][14] 产业发展态势 - **“无共识”的产业利好**:共识缺失对产业有三重利好:1) 打破单一技术路线垄断,避免路径依赖,让不同技术理念和学科背景的团队获得平等试错空间 [3];2) 降低准入壁垒,为中小企业、初创团队及跨界玩家提供弯道超车的机会 [3];3) 在技术基础快速迭代的早期,避免过早形成共识固化技术路径,为向更高维度突破预留“弹性空间” [3] - **发展路径展望**:短期突破依赖仿真模拟与合成数据以加速探索,长期发展则依赖于现实世界中“机器人人口”规模的持续快速扩张,通过能力提升与数据积累相互推动,才能催生真正强大的具身大模型 [8][11]
Pony Ai(PONY) - 2025 Q3 - Earnings Call Transcript
2025-11-25 21:00
财务数据和关键指标变化 - 第三季度总收入为2540万美元,同比增长72% [24] - 机器人出租车服务收入达到670万美元,同比增长89.5%,环比增长338.7% [25] - 车费收入实现三位数增长,同比激增233.3% [25] - 机器人卡车服务收入为1020万美元,同比增长8.7% [28] - 许可和应用收入为860万美元,同比大幅增长354.6% [28] - 毛利率从2024年第三季度的9.2%显著改善至2025年第三季度的18.4%,毛利润为470万美元 [28] - 总运营费用为7430万美元,同比增长76.7% [29] - 非GAAP运营费用为6770万美元,同比增长63.7% [30] - 第三季度净亏损为6160万美元,去年同期为4210万美元 [30] - 非GAAP净亏损为5500万美元,去年同期为4140万美元 [30] - 截至2025年9月30日,现金及现金等价物、短期投资、受限现金和长期理财工具总额为5.877亿美元,较2025年6月30日的7.477亿美元有所下降 [31] - 2025年前九个月累计自由现金流流出为1.736亿美元 [31] - 香港IPO筹集了超过8亿美元新资金 [32] 各条业务线数据和关键指标变化 - **机器人出租车业务**:收入强劲增长,主要受中国一线城市用户需求增长、车队运营效率提升和定价策略优化推动 [8][25] - **机器人出租车业务**:在广州实现城市级单位经济盈亏平衡,每日单车净收入达到299元人民币,平均每日订单23单 [29][42] - **机器人出租车业务**:车队规模加速扩张,截至11月已生产超过600辆Gen7车辆,总车队规模超过900辆,预计将超额完成全年1000辆的目标 [7][24] - **机器人出租车业务**:推出卫星模式,与第三方(如深圳四湖集团、Sunlight Mobility)合作,通过技术许可费和车辆销售贡献收入,支持轻资产扩张 [11][26][27] - **机器人卡车业务**:发布第四代机器人卡车,预计2026年投入生产和初步车队部署 [13] - **机器人卡车业务**:预计将自动驾驶硬件套件成本降低70%,并实现1000辆规模的车队 [28] - **许可和应用业务**:收入大幅增长,主要受机器人配送客户对自动驾驶域控制器的强劲需求推动 [28] 各个市场数据和关键指标变化 - **中国市场**:在一线城市(广州、深圳、北京、上海)持续扩大运营版图,并实现城市级单位经济盈亏平衡 [5][8][37] - **中国市场**:在上海成为首家推出完全无人驾驶商业机器人出租车运营的公司,覆盖浦东金桥和花木区域 [8] - **中国市场**:在深圳将完全无人驾驶商业运营扩展至蛇口和华侨城等更大区域 [8] - **海外市场**:机器人出租车业务已进入8个国家,包括中国、中东、东亚、欧洲和美国 [11] - **海外市场**:第三季度通过合作进入卡塔尔新市场,并在首都多哈开始公共道路测试 [11] - **海外市场**:在韩国获得全国性机器人出租车许可,可在全国自动驾驶测试和运营区运营 [12] - **海外市场**:在卢森堡计划通过与Stellantis联盟部署基于标致e-Traveler的测试车辆 [12] - **海外市场**:与Uber和Bolt等全球网约车平台合作,以利用其生态系统进入中东和其他国际市场 [12][13] 公司战略和发展方向和行业竞争 - **核心战略**:快速规模化、高效且舒适的自动驾驶出行服务,以实现“自动驾驶无处不在”的使命 [14] - **规模化战略**:加速大规模生产和商业化,计划到2026年将车队规模扩大至3000辆以上 [4][32] - **技术战略**:坚持全栈(软件、硬件、运营)集成技术路线,以构建可扩展的自动驾驶出行 [15] - **技术战略**:早期押注世界模型和基于强化学习的仿真训练,构建了名为Pony World的闭环训练系统,实现无监督、自我改进的迭代 [15][16] - **竞争优势**:作为行业先行者,拥有更大的L4车队、品牌知名度、成本优化和更多合作伙伴,构成了新进入者的业务壁垒 [46] - **行业竞争**:认为更多公司进入行业是好事,表明对大规模商业化的认可和信心增加,但新进入者面临业务、监管和技术三大挑战 [45][46][47] - **监管挑战**:L4机器人出租车需要满足极高的安全要求,获取许可和积累安全记录是一个漫长过程,构成了新玩家的监管壁垒 [47][48] - **技术挑战**:处理长尾场景和极端案例是关键,公司的世界模型和虚拟司机协同进化的闭环训练能有效应对 [17][50] 管理层对经营环境和未来前景的评论 - **经营环境**:用户需求强劲,特别是在中国一线城市,新注册用户在Gen7推出后一周内几乎翻倍 [7] - **未来前景**:对增长充满信心,预计机器人出租车收入增长将进一步加速,车队规模到2026年将超过3000辆 [25][32] - **未来前景**:香港IPO显著增强了资产负债表,为下一阶段增长提供了充足资金,将用于加速车队扩张、优化平台和深化研发投资 [4][32] - **未来前景**:卫星模式的实施将提高资本支出效率,为可扩展的车队扩张提供更大杠杆 [32] - **技术前景**:L4原生技术架构天生具备泛化能力,能快速适应新市场和新平台,这是快速扩展运营区域的关键 [21][52] - **技术前景**:大语言模型因其安全性、延迟问题以及对人类数据的依赖,不适合用于车载驾驶模型,但广泛用于研发中的其他环节 [54][55][56] 其他重要信息 - 公司于2025年11月6日在香港交易所完成双重主要上市,股票代码2026,成为今年全球自动驾驶领域最大规模的IPO [4] - 公司管理层在电话会议当天乘坐完全无人驾驶的Gen7机器人出租车抵达深圳办公室 [5] - 公司每周通过Pony World生成100亿公里的测试里程,其中超过99%涉及车辆与智能体的交互 [17] - 远程辅助与车辆的比例正在改善,目标是在年底达到1:230 [20] - 研发费用增加的部分原因包括为Gen7车辆支付了1270万美元的一次性定制开发费 [30] - 现金余额减少的部分原因包括向与丰田的合资企业JFeng注资以支持Gen7大规模生产,以及为采购Gen7车辆产生的资本支出 [31] - 公司与多家OEM(北汽、广汽、丰田)合作生产机器人出租车,以适配不同地区的本地品牌偏好,这被视为一种技术泛化能力和竞争优势 [57][58] 问答环节所有的提问和回答 问题: 关于今年的车队规模、2026年展望以及在不同城市的车队部署计划 [35] - 公司预计将超额完成此前设定的年底1000辆机器人出租车目标,并预计强劲势头将持续到2026年,保守目标为超过3000辆 [35] - 车队密度的增加缩短了乘客等待时间,提升了用户体验和车辆利用率,形成了扩张的良性循环 [36] - 卫星模式通过与车队管理方合作,能够以更少的资本支出部署更大规模的车队 [36] - 部署计划包括深化现有市场(中国一线城市)运营,同时探索更多国内新城市和海外市场机会 [37] - 在广州实现的城市级单位经济盈亏平衡是关键里程碑,验证了商业模式,为扩张提供了信心 [37] 问题: 关于车费收入的增长动力以及随着车辆部署增加的展望 [38] - 第三季度车费收入增长约233%,这发生在Gen7车队部署之前,主要由Gen5和Gen6车队支撑 [38] - 增长动力来自需求端和运营端:需求端,用户体验改善推动了强劲的有机用户需求,第三季度总注册用户同比增长超过一倍;运营端,通过优化车队调度和部署,等待时间较2024年同期缩短约50%,在深圳的上下车点数量自6月底以来增加了300%以上 [39] - 随着更多Gen7车辆加入服务,预计增长势头将持续,车队规模的指数级增长将创造更好的网络效应(更短等待时间、更高车辆利用率、更高用户采用率) [40] - 公司还将逐步扩大在上海、深圳等城市的服务区域,增加人口覆盖和可行驶里程,从而提升平均每单价值 [40] 问题: 关于城市级单位经济盈亏平衡背后的假设,包括每日订单、定价、运营时长和远程辅助比例 [41] - 该里程碑在广州实现,基于Gen7车辆投入商业服务后的数据 [41] - 收入侧:每日单车净收入(扣除折扣和退款后)达到299元人民币,这是基于11月23日前两周的日均数据;日均订单为23单 [42] - 成本侧:主要包括硬件折旧(按6年使用寿命计算)和运营成本(充电、远程辅助、地面支持、维保、保险、停车、网络等) [43] - 远程辅助比例正朝着1:30(即1名远程辅助员支持30辆车)的目标迈进 [43] - 这一成就使公司有信心抓住中国巨大的市场总规模,并为向卫星模式转型奠定了战略基础 [43] 问题: 关于如何看待新进入者(特别是电动车制造商)进入L4自动驾驶领域,以及面临的主要技术和运营挑战 [44] - 更多公司宣布进入行业是好事,表明对机器人出租车大规模商业化潜力的认可和信心增强,将吸引更多资源加速行业发展 [45] - 但行业并非易事,新进入者面临三大障碍:业务挑战、监管挑战和技术挑战 [46] - **业务挑战**:涉及用户获取、车辆生产、车队调度、维护等多方面,作为先行者,公司拥有更大车队、品牌知名度、成本优化和更多合作伙伴的优势 [46] - **监管挑战**:L4需要极高安全标准,新玩家需要逐步证明安全性、获取许可,过程漫长 [47][48] - **技术挑战**:处理长尾场景是关键,公司的世界模型和虚拟司机形成了协同进化的双螺旋循环,能有效应对极端案例,减少对真实世界数据的依赖 [49][50] - 香港IPO将加速研发迭代周期,巩固技术领导地位和拓宽竞争护城河 [51] 问题: 关于运营区域快速扩展的主要因素,以及是否使用大语言模型及其对L4的推动作用 [52] - **泛化能力**:L4原生技术架构天生为泛化而建,能快速适应新区域,例如在上海浦东和深圳南山区的扩展仅需几周,无需额外模型训练,因为极端案例在不同地区本质一致 [52][53] - **扩展速度限制**:运营区域扩展速度不能显著快于车队规模增长速度,否则会稀释车辆密度 [54] - **大语言模型**:由于其固有的模型幻觉、高延迟以及对人类数据的过度依赖(会学习人类错误),大语言模型不符合L4车载驾驶模型对安全和低延迟的非妥协性要求 [54][55] - **大语言模型的应用**:公司广泛将其用于研发工作,如AI增强的人机交互、工程生产力工具(编码、文档)以及分析乘客反馈以改善体验,但不用于车载驾驶模型 [56] 问题: 关于与多家OEM合作生产机器人出租车,是否考虑通过与单一OEM合作来提高运营杠杆 [57] - 全球出租车行业的现实是,当地政府和居民对本地品牌的出租车车辆有强烈偏好 [57] - 当需要部署大规模车队时,与不同地区的本地品牌OEM合作是必要的,这有助于更快地进入不同市场 [58] - 将自动驾驶套件适配到不同车辆中存在巨大技术挑战,但能够做到这一点恰恰证明了公司的技术泛化能力,未来将成为巨大的竞争优势,并能加速向新区域扩张 [58] 问题: 关于机器人出租车遇到困难时使用远程辅助而非远程控制或人工接管的原因及技术差异 [59] - 远程辅助从不通过方向盘或踏板控制车辆,而是通过响应服务请求提供远程支持和建议 [59] - 车辆始终独立驾驶和决策,仅在请求时启动辅助,而非等待远程指令,从而确保安全且不依赖网络延迟 [59] - 典型案例如临时交通管制,系统可请求远程辅助以确认决策 [60] - 通过改进AI算法,公司正持续提高远程辅助与车辆的比例,目标在年底达到1:30 [60] 问题: 关于对中东国家颁发完全无人驾驶机器人出租车许可证的看法以及公司的海外战略 [61] - 公司使命是“自动驾驶无处不在”,具备全球雄心 [61] - 当前全球努力聚焦于具有高增长潜力的市场,这些市场通常拥有强劲的出行需求、发达的基础设施和支持性的监管环境 [61] - 评估潜在市场时主要考虑三个因素:可寻址市场规模、当地政府对完全无人驾驶商业运营的开放和支持程度、当地合作伙伴的地面资源和运营能力 [62] - 目前已在8个国家开展机器人出租车业务,例如第三季度通过与Mowasalat合作新增卡塔尔市场,海外市场机器人出租车收入快速增长,预计势头将持续,未来将视机会进入其他全球市场 [62]
营收破亿,光轮智能完成数亿元 A 及 A+轮融资,揭秘机器人「数据荒」背后的生意经
Founder Park· 2025-11-25 20:38
公司融资与市场地位 - 光轮智能完成数亿元A轮及A+轮融资,投资方包括东方富海、三七互娱等机构,老股东辰韬资本持续加注 [2] - 融资资金将用于规模化交付能力建设、技术研发投入和高水平人才引入 [2] - 公司年营收突破亿元,订单需求持续指数型增长,客户覆盖英伟达、谷歌、Figure AI、比亚迪、吉利等国内外顶尖企业 [2] - 公司定位为全球Physical AI与世界模型数据市场的第一数据基础设施提供商 [23] Physical AI的行业机遇与数据瓶颈 - 英伟达CEO黄仁勋指出Physical AI已是数十亿美元业务,正应对数万亿美元机会,是公司下一个增长引擎 [3] - 机器人基础模型开发存在巨大的数据短缺问题,现实世界中缺乏足够多的机器人部署来收集数据 [7][9] - 世界模型的发展同样面临数据瓶颈,需要大量高质量多模态数据来理解物理世界的因果关系和物体交互 [9] - 英伟达机器人产品线经理Spencer Huang强调模拟(Simulation)是解决数据不足的关键答案,可将20年学习压缩到几小时 [12] 光轮智能的技术解决方案 - 公司通过仿真环境生成高质量合成数据,为机器人开发者提供一站式合成数据与仿真解决方案 [13] - 平台深度整合英伟达Isaac Sim、Omniverse Cloud及OpenUSD等技术栈,提供物理精确的SimReady资产库 [16] - 仿真细节精确建模,如冰箱门铰链阻尼、抽屉摩擦系数、桌布形变特性,确保技能可迁移至真实世界 [16] - 应用场景已覆盖医疗手术机器人、智能制造产线、自动化化学实验室、智慧农业采摘等多个垂直领域 [19] 与英伟达的深度生态合作 - 光轮智能创始人在融资后受邀登上英伟达官方YouTube频道,访谈内容被推送至其全球社交媒体平台 [6] - 过去一个月双方高频互动,包括与英伟达产品营销总监的直播及在GTC DC大会主旨演讲中被展示 [20] - 公司在技术层面为英伟达GR00T、Cosmos等模型提供合成数据支持,是Omniverse和Isaac Sim平台SimReady资产生态的核心贡献者 [20] - 双方共同开发Isaac Lab-Arena测试框架和Newton物理引擎应用,体现了紧密的生态协作关系 [20] 行业愿景与发展规划 - 仿真被视为机器人行业的加速器,有望加速规模达50万亿美元的产业发展 [21] - 公司下一步将重点建设规模化交付能力,以匹配高速增长的客户及市场需求 [23]
六小龙的乌镇信号:AI创业从拼模型进入拼场景时代
36氪· 2025-11-25 17:54
文章核心观点 - 2025年世界互联网大会上,“杭州六小龙”企业的集体亮相标志着中国AI创业从追逐流量和模型的“上半场”,进入与物理世界深度融合、注重商业化落地和生态共建的“下半场”[1][13] - AI发展的核心趋势正从理解文本转向理解世界,其关键能力由空间理解、行动能力、环境交互三部分构成,而“六小龙”的业务路径恰好共同构成了这一未来AI框架[11][12] - 杭州凭借其强大的智能制造基础、工程师文化和市场反馈机制,成为AI从虚拟空间走向物理世界这一“时代跃迁”的理想试验场和现实舞台[1][12][13] 行业宏观数据与趋势 - 截至2025年9月,浙江省人工智能核心产业营业收入达4944亿元,同比增长22%,研发费用为390亿元,同比增长14%[1] - 2025年前三季度,中国机器人行业收入同比增长29.5%,生产了59.5万台工业机器人和1350万台服务机器人,均已超过2024年全年总量[2] - 2025年1至10月,中国AI领域亿元级融资达139笔,总额突破600亿元,人工智能相关企业数量已突破424.3万家[6] - AI投资逻辑发生转变,具身智能已超越大模型成为最吸金的板块,73家企业斩获超200亿元融资,占融资总额的三分之一[7] 公司发展与战略 宇树科技 - 公司从2016年成立时的3人团队发展到1000多人的规模,产品销往全球[2] - 机器人行业的突破得益于“全球共创”以及中国强大的生产制造能力[2] - 面临数据采集挑战,相比大语言模型,机器人领域存在模型结构与数据量不足的问题,且各厂家数据不一致[8] 强脑科技 - 创业始于哈佛大学,2018年将公司从美国迁回杭州后得到快速发展[2] - 产品路线遵循从“痛”到“大”的逻辑,从帮助残疾人通过“意念”控制假肢,拓展至睡眠产品等更大领域[2][3] - 脑机接口技术已被列入中国“十五五”规划建议中要大力发展的六大未来产业[3] 群核科技 - 认为空间智能是继大语言模型之后的重要领域,是机器人应用于物理世界的重要基础设施[4] - 未来将是一个充满机器人的世界,需要空间智能技术来统一管理、指挥机器人[4] - 公司在2021年开源了空间数据集,为之后在空间智能领域的发展打开了新空间[8] 云深处科技 - 从10年前机器狗在展会上是新鲜事,发展到如今机器狗随处可见,并开始研发人形机器人[4] - 产品研发遵循“以终为始”的理念,紧密结合具体应用场景,目标是让机器人在危险场景代替人、帮助人[4][5] - 公司发展重点从解决具体技术问题转向关注如何适配真实应用场景[7] 游戏科学 - 认为公司的成功是站在中国游戏产业“巨人肩膀”上的结果,中国已成为全球用户最多、规模最大的游戏市场[5] - 观察到去年全球最赚钱的10款游戏中,有4款由中国团队研发,另有3款有中国投资或参与[5] - 打造的虚拟世界可作为AI训练环境,构成未来AI框架的一部分[11] 深度求索 - 自创立之初就选择开源路线,以追求实现AGI为目标,为开发者提供“以软补硬”技术方案[5] - 通过与开源社区的技术开发者交流获得反馈,反过来推动了自身发展[6][8] - 认为当前AI发展仍处在上半场的早期,技术发展具有“加速度”,跨过关键节点后将迎来爆发[6] 生态构建与创新机制 - “沿途下蛋”成为普遍发展哲学,即优先将已成熟技术应用到垂直行业中解决实际问题,而非等待技术完美成熟[7] - 开源共创成为生态构建的关键,从技术孤岛转向生态共建是创业公司的重要定位转变[7][8] - 杭州的创新竞争力源于“信任专业、赋能个体”的文化,如“校长不管院长,院长不管教授”的管理模式[8] - 阿里云表达了类似的生态观,即“做最好的模型,然后开源出来让大家应用”[8]
西部证券晨会纪要-20251125
西部证券· 2025-11-25 10:07
核心观点 - 报告核心观点为锑价触底回升且明显反弹,建议关注锑相关投资机会 [2][4] - 报告同时关注北交所市场深度回调后的政策托底机遇 [2][8] 宏观经济与政策动态 - 美联储10月会议纪要显示决策者对12月是否降息存在较大分歧,10月会议以10比2的投票结果降息25个基点,将联邦基金利率目标区间下调至3.75%-4.00% [4] - 美国9月非农就业意外大增11.9万人,显著高于市场预期的5万人,失业率从8月的4.3%升至4.4%,创2021年以来新高 [2][5] - 7月非农新增就业人数从7.9万人下修至7.2万人,8月非农新增就业人数从2.2万人下修至-0.4万人,修正后7月和8月新增就业人数合计较修正前低3.3万人 [2][5] - 纽约联储主席威廉姆斯表示美联储仍可在短期内降息,其讲话后市场对美联储12月降息25个基点的概率从约40%跃升至70% [6] 有色金属行业 - 刚果(金)延长手工采矿贸易禁令六个月,涉及北基伍省和南基伍省38处生产铌坦铁矿、锡石和白钨矿的矿点,给全球锡、钽和钨供应增加压力 [7] 北交所市场表现 - 当周北交所全部A股日均成交额达179.1亿元,环比下降16.2% [8] - 当周北证50指数收跌9.04%,日均换手率达2.6% [8] - 当周涨幅前五大个股分别为:大鹏工业(1211.1%)、北矿检测(289.6%)、*ST云创(18.8%)、海希通讯(16.6%)、美登科技(8.2%) [8] - 当周跌幅前五大个股分别为:路桥信息(-23.2%)、泰鹏智能(-19.8%)、利通科技(-19.3%)、安达科技(-18.3%)、力佳科技(-16.9%) [8] 北交所投资建议 - 北交所政策端持续发力,发布《持续监管指引第14号》强化上市公司质量监管,12部门印发《金融支持北京市提振和扩大消费的实施方案》间接利好北交所消费类专精特新企业 [10] - 建议关注指数深度回调后的技术性超跌迹象、政策托底信号以及专精特新“小巨人”企业的结构性机会 [10] - 建议关注主题基金开放阶段的净申购情况,以及北证“专精特新”指数基金的推出带来的流动性修复机遇 [2][10] 科技行业动态 - 谷歌DeepMind重点投入世界模型研发,并将其用于训练其他智能体及机器人 [9] - 中国信通院主导的《具身智能系统框架及能力要求》国际标准取得进展,为全球技术创新提供统一技术框架 [9]
LUMA AI完成由HUMAIN领投的9亿美元C轮融资,并将在沙特阿拉伯合作建设2吉瓦AI超级集群
机器之心· 2025-11-24 17:30
融资与合作核心信息 - Luma AI完成9亿美元C轮融资,由PIF旗下的HUMAIN领投,AMD Ventures深度参与,过往投资者Andreessen Horowitz、Amplify Partners和Matrix Partners也参与其中 [1] - 融资在华盛顿特区举行的美沙投资论坛上宣布,正值沙特王储访问之际 [4] - 本轮融资是公司构建多模态通用智能使命中的一个里程碑 [3] 战略项目“光环计划”(Project Halo) - HUMAIN将建设名为“光环项目”的AI超级计算集群,位于沙特阿拉伯,容量为2吉瓦,旨在成为世界上最大的AI计算集群之一 [1][3] - 该集群将为下一代“世界模型”提供算力支撑,加速迈向多模态通用人工智能的进程 [3] - 该集群代表了多模态AI基础设施的一次巨大飞跃,旨在训练比当前前沿大语言模型多1,000到10,000倍信息量的拍字节级多模态数据 [5] 技术愿景与应用前景 - Luma AI致力于构建多模态AGI,即能够在物理世界中生成、理解和操作的AI,其系统需要从相当于人类集体数字记忆的千万亿个信息标记中学习 [1][5] - 世界模型是继大语言模型之后的下一个AI阶段,蕴含跨越娱乐、营销/品牌、教育、世界理解和机器人行业的潜在万亿美元机遇 [1] - 技术将应用于机器人、娱乐、广告、游戏和个性化教育等领域 [4] 合作伙伴关系与市场拓展 - 合作伙伴关系包括HUMAIN Create计划,旨在构建基于阿拉伯语和区域数据训练的AI模型,帮助中东和北非地区的企业和政府采用符合文化背景的AI [1] - Luma AI是首批在HUMAIN Create中推出的模型集,这些模型将理解文化语境、视觉细微差别和语言多样性 [7] - Luma AI计划将其在娱乐和广告领域的领导地位扩展到模拟、设计和机器人领域 [7] 公司产品与能力 - Luma AI的旗舰模型Ray3是世界上第一个推理视频模型,能够创建物理上准确的视频、动画和视觉效果,已被顶级娱乐工作室、广告代理商和技术领导者使用 [8] - 旗舰平台Dream Machine使创意人员能够生成专业级的视频和图像 [8] - 公司展示了将基础研究转化为可扩展商业产品的能力,其模型被嵌入Adobe的全球产品和解决方案中 [7]
华为又投了一家具身智能机器人领域创企
Robot猎场备忘录· 2025-11-24 13:21
融资情况 - 公司于2025年10月30日完成亿元级A1轮融资,由华为哈勃和华控基金联合投资[2] - 公司于2025年8月28日完成Pre-A和Pre-A+两轮数亿元融资,投资方包括国中资本、紫峰资本、PKSHA Algorithm Fund、中金资本、广州产投、一村淞灵和华强资本[2] - 公司于2025年2月12日完成数千万元天使++轮融资,投资方包括普超资本、合鼎共资本和上海天使会[3] - 2025年公司已完成4轮融资,累计完成6轮融资,早期融资包括2024年9月近5000万元天使及天使+轮融资和2023年3月数千万元种子轮融资[3] - 公司是华为投资的第二家具身智能领域创企,另一家千寻智能Spirit AI已完成5轮累计近14亿元融资[4] 行业背景 - 2025年以来谷歌、OpenAI等国外科技大厂从大模型赋能转向投资和自研具身智能,国内蚂蚁、京东、阿里等大厂也加快投资步伐,华为是典型代表[6] - 资本开始青睐具备强大AI能力且同时涉及本体的初创公司,此类公司在2025年接连完成大额融资并取得商业化突破[25] 公司概况 - 公司于2023年1月在北京注册成立,定位为物理AI公司,专注世界模型驱动的物理世界通用智能,是国内第一家专注世界模型x具身大脑方向的科技公司[6] - 公司核心团队兼具领先研究能力和大规模产业落地经验,是少有的同时具备CV和大模型经验创始团队的具身智能初创公司[9] 核心团队 - 创始人兼CEO黄冠为清华大学人工智能方向博士,国家级创新领军人才,拥有超过十年AI技术和产业经验,曾在微软、三星、地平线等企业从事算法开发[12] - 首席科学家朱政为中科院自动化所博士、清华博士后,拥有超过70篇视觉和AI方向顶会论文,连续四年入选全球前2%顶尖科学家榜单[12] - 工程副总裁毛继明为百度、赢彻等T10级别架构师,曾担任百度Apollo仿真和工程负责人[12] - 产品副总裁孙韶言曾担任阿里云总监、地平线数据闭环产品线总经理[12] - 算法负责人陈新泽为中科院硕士,AI世界冠军得主[12] 技术路线 - 公司全栈自研,同时布局本体和大脑,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain和通用具身本体Maker等物理AI全栈软硬件产品[10] - 公司技术路线是具身智能大模型和人形机器人本体同时涉及,在软硬件上全栈推进[25] 软件产品 - 世界模型平台GigaWorld应用于驾驶和具身两个方向,在驾驶方向已发表DriveDreamer、ReconDreamer等成果,在具身方向已发表EmbodieDreamer、RoboTransfer、EmbodiedGen等领先学术工作[13] - 公司将于近期发布具身世界模型平台GigaWorld-0[14] - 2025年7月公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview,实现开放世界零样本泛化[15] - 2025年10月底公司与湖北人形机器人创新中心联合发布端到端VLA具身基础模型GigaBrain-0,是国内首个利用世界模型生成数据实现真机泛化的VLA基础模型[15] - 2025年10月31日公司正式开源三大AI基础设施框架GigaDatasets、GigaModels和GigaTrain[16] 硬件产品 - 公司自研的全新一代具身智能人形机器人通用本体Maker H01即将推出,拥有丰富传感器配置和高度开放接口[17] - Maker H01尺寸为650*550*1620毫米,头部自由度2,单臂自由度7,躯干自由度4,底盘为四轮全向全驱,手臂额定负载3公斤最大负载5公斤,臂展794毫米[21] - 传感器配置包括头部RGBD相机1个、胸部RGBD相机1个、手部RGBD相机2个、头部RGB相机5个、底盘激光雷达1个和底盘超声波传感器8个[21] 业务进展 - 在自动驾驶世界模型方向已和多个头部主机厂达成签约合作,在具身世界模型和具身大脑方向已和多个具身本体、终端公司达成签约合作[22] - 应用场景包括科研、教育、展览、数据采集、工业、服务、家庭等多个领域[22] 行业地位 - 公司是国内第一家专注世界模型方向的创企,在世界模型和VLA大模型方向都处于领先水平[25] - 双系统架构技术路径VLA模型已成为具身智能领域模型主流,但仍存在数据、黑盒风险、泛化能力等问题[23] - 未来机器人通用大模型架构演进方向之一是将世界模型引入决策推理流程,英伟达、谷歌DeepMind和李飞飞的World Labs等头部公司都加速在世界模型方向布局[24]
8位具身智能顶流聊起“非共识”:数据、世界模型、花钱之道
36氪· 2025-11-24 09:00
行业资金需求与投入方向 - 加速进化创始人认为100亿元资金不足以推动具身智能发展,倾向于联合更多合作伙伴共同投入[1] - 智元机器人合伙人计划用100亿元构建全球最大的自我进化、自我闭环的数据飞轮[1][54] - 星海图联合创始人计划用资金构建最大的数据引擎,实现物理世界信息的全面数字化[55] 数据策略与瓶颈解决方案 - 招商局集团AI首席科学家强调真实物理世界数据的重要性,并主张以人自身作为本体采集数据作为成本最低的预训练方案[29][30] - 银河通用创始人认为在真实数据难以采集的场景下,合成数据将发挥重要作用[2][38] - 自变量创始人主张根据具体任务选取合适数据源,采用融合数据策略,互联网数据用于预训练,仿真数据用于导航规划,真实数据用于接触操作[2][46] 世界模型的技术定位 - 银河通用创始人认为世界模型所代表的预测能力是核心,但训练数据必须来自机器人自身,而非人类行为视频[4] - 智源研究院院长认为世界模型对具身智能有作用,但不一定是必须基座,需要基于时空状态进行预测[5] - 加速进化创始人关注世界模型的预测能力,希望模型能基于需求和环境输出未来100帧的动作[18][19] 模型架构发展路径 - 招商局集团AI首席科学家认为具身智能需要完全属于自己的架构,可能转向Vision First或Vision Action First模式,而非延续VLA范式[7] - 星海图联合创始人主张建立平行于大语言模型的基础模型,更可能是Large Action Model,并强调需要闭环模型而非开环的大语言模型[8][10] - 智元机器人合伙人认为最终解决方案将是融合系统,包含VLA、世界模型和强化学习等要素[11] 当前行业挑战与突破点 - 银河通用创始人指出人形机器人数量过少是制约Action First模型发展的关键瓶颈[16] - 智源研究院院长认为统一架构模型需要超大
认知驱动下的小米智驾,从端到端、世界模型再到VLA......
自动驾驶之心· 2025-11-24 08:03
小米汽车智能驾驶技术发展 - 智能驾驶能力发展遵循三个阶段:从1.0规则驱动到2.0数据驱动再到3.0认知驱动[7] - 技术发展路线为:2024年3月高精地图版本高速NOA → 2024年5月城区NOA → 2024年10月轻图和无图版本 → 2025年2月300万clips端到端版本 → 2025年7月1000万clips版本 → 近期世界模型版本[7] - 在安全、舒适和效率三个维度上,安全永远是第一位[4] - 泊车功能渗透率最高且用户使用最多,城区智驾投入最大且提升空间最大[8] - 2024年11月21日广州车展发布Xiaomi HAD增强版,将通过OTA冬季大版本Xiaomi HyperOS 1.11系列推送给用户[8] 世界模型技术特性 - 世界模型三大核心特性:生成的多样性(重建真实性+快速新场景生成+场景编辑)、多模态输入输出(文字/视频输入+视觉/LiDAR重建)、交互能力(闭环影响下一时刻自车行为)[9] - 世界模型更偏云端应用,通过数据生成、闭环仿真和强化学习提升模型性能,不直接参与车端Action输出[10] - 1.11版本引入世界模型和强化学习,主要解决极端corner case场景,采用重建+生成结合方式[8] VLA与端到端技术路线 - VLA(视觉语言动作模型)是认知驱动核心,为下一阶段量产目标,并非端到端的升级[7] - 端到端本质是模仿学习,VLA直接将大模型能力赋予自动驾驶,世界模型类似端到端plus[13] - VLA可与世界模型融合,学习人类高层次知识(交通规则/价值观)[13] - 小米大模型发展路线:LLM预训练 → VLM预训练 → 具身预训练 → 自驾VLA,已推出MiMo、MiMo-vl和MiMo-Embodied[13] - VLA的无损传递是相比端到端+VLM的最大提升[13] 自动驾驶技术社区资源 - 自动驾驶之心知识星球涵盖40+技术方向,包括VLA学习路线、端到端自动驾驶、世界模型等[16][27] - 社区成员来自300家机构与自驾公司,包括蔚小理、地平线、华为等头部企业[26] - 提供近40+开源项目、近60+数据集、行业主流仿真平台及各类技术学习路线[27] - 社区内部举办超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果[99]
8位具身智能顶流聊起「非共识」:数据、世界模型、花钱之道
36氪· 2025-11-23 20:56
文章核心观点 - 国内具身智能行业顶尖从业者就技术路径、数据策略等关键问题存在显著非共识,反映出不同的战略重心和第一性原理[4][7][9] - 具身智能的发展面临数据瓶颈,100亿元资金被普遍认为不足以支撑行业突破,需用于吸引人才、构建数据飞轮和基础模型[7][67][68][69][70] - 行业普遍认为具身智能的最终形态将依赖于一个统一的基础模型架构,但当前技术路线尚未收敛,VLA范式受到反思[18][19][23][25][36] 技术路径分歧 - 世界模型被视为具身智能的核心预测能力,但其训练数据必须来自机器人自身,而非人类行为视频[14][15][16] - 有观点认为世界模型是具身智能的关键组成部分,但不一定是必须的基座,其价值在于基于时空状态进行预测[17] - 对当前主流的视觉-语言-动作模型范式提出质疑,认为其语言居中夹层的结构不符合人类操作本质,应探索视觉优先或动作优先的新架构[19][20] - 具身智能模型应是一个闭环系统,能根据世界反馈即时调整动作,这与大语言模型的开环一问一答模式有本质区别[22] - 另一种观点认为终极解决方案将是一个融合系统,包含VLA、世界模型和强化学习等要素,而非单一模型[23][24] - Transformer架构被认为具有跨模态处理的通用性,但需解决输出对齐问题,未来可能出现统一范式[27][28][35] - 长期来看,基于物理世界数据训练的具身多模态模型可能反超并吞并以虚拟世界数据为主的现有模型[40] 数据策略与瓶颈 - 数据稀缺是行业核心瓶颈,解决方案存在分歧:有主张优先采集真实物理世界数据,有强调在难以采集处使用合成数据[9][10] - 数据策略强调真实性、质量和多样性,需在真实场景而非数据厂采集,并最终通过机器人自主交互产生数据[45][46][47][48][49][50] - 视频数据因可海量获取且模拟真实世界而被视为基座模型学习的重要来源,结合真机微调和强化学习提升模型[51] - 仿真数据被强调用于解决复杂控制问题,如足式行走和灵巧手操作,可作为基础控制器启动真实世界数据飞轮[52][53][54][55][56] - 数据使用策略呈现融合趋势,根据不同任务阶段和特性选择互联网数据、仿真数据或真实数据[37][38][59] - 自动驾驶模式被引用为范例,通过C端产品大规模部署实现数据回收,是具身智能数据规模化的可行路径[59][60] 资金分配与战略重心 - 面对100亿元资金,战略重心集中于构建自我进化的数据飞轮、设计专属基础模型以及吸引全球顶尖人才[67][68][69][70] - 资金规模被评价为“不太够”,需联合行业伙伴共同推动,投资于智源研究院等机构以支持长期技术突破[7][67] - 决策的第一性原理包括相信规模定律驱动模型进化、做难而正确的事情、关注落地可行性以及创造长期真实价值[61][62][64][65]