Workflow
VLA模型
icon
搜索文档
VLA+RL技术交流群来啦~
具身智能之心· 2026-01-08 12:23
行业技术动态 - 行业正在积极构建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]
为什么π系列对行业产生了这么大的影响?
具身智能之心· 2026-01-07 15:02
π系列VLA模型的技术演进与行业影响 - π系列是视觉语言动作模型领域的里程碑 通过持续技术突破引领生成式AI时代的机器人学习范式 重塑行业应用逻辑 [2] - 2024年10月发布的π0首创Flow Matching连续动作轨迹预测 突破传统离散动作精度瓶颈 为精密制造和自动驾驶等场景提供毫米级操作基础 [3] - 2025年4月发布的π0.5通过异构任务协同训练和层次化推理 在陌生环境复杂任务泛化成功率达到94% 利用人类视频训练使数据成本降低90% 大幅提升跨本体适应性并降低机器人规模化部署门槛 [3] - 2025年11月发布的π0.6通过RECAP强化学习赋能零样本泛化与高效微调 在真实世界效率与精度超越人类 实现工业级高任务完成率与数十分钟快速换型 推动柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造和家庭服务等实景应用 成为2025年来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建自己的真机演示 例如叠衣服和拆箱子等 或基于此思路改进优化 Physical Intelligence的新工作发布总会引起行业反响 [3] 行业学习与应用的挑战 - 然而π系列模型存在难以调试和难以达到预期效果的问题 导致许多从业者将大量时间浪费在“踩坑”上 [4] - 对于初学者而言 想要基于π系列完成数据、VLA模型训练优化到部署的一整套任务非常困难 有的甚至踩坑半年仍无法真正入门 [5] - 对于更新快速的技术路线 如何有效学习VLA难倒了相当多的同学 许多人即使拥有真机也不知道如何使用 [8] 具身智能之心推出的解决方案与课程 - 具身智能之心基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法 旨在解决行业缺乏真机和项目指导的问题 [7] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》 手把手带领学员复现π0系列 [8] - 课程涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解等内容 [13] - 购买课程的学员将获赠一套SO-100机械臂 包含示教臂和执行臂 [16] - 课程讲师为某机器人公司VLA高级研究员 拥有5年以上机器人行业实战经验 聚焦产学研协同落地 熟练掌握具身智能全栈技术 并发表过多篇顶级学术论文 [19] 课程目标人群与收获 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶提升的入门者、从事具身智能研究的本科生、硕士生和博士生、希望从传统CV、机器人或自动驾驶领域转行进入具身的同学 以及对具身智能感兴趣的其他人员 [24] - 课程要求学员具备一定的Python和PyTorch基础 推理建议使用RTX 3060及以上显卡 训练建议使用2张以上RTX 3090 Ti显卡或可自租云服务器资源 [24] - 学员学后将掌握真机调试与数据采集、各类VLA算法在真机上的部署 并对VLA模型量化及具身产业落地有清晰认识 [24] - 学员简历上将获得足够多的项目支撑 学完可达到具备1-2年以上经验的算法工程师水平 [24] - 参与项目可写入简历 所学技巧可作为面试答案 更重要的是能节省大量“踩坑”时间 [11] 课程安排与信息 - 课程于2025年12月30日正式开课 课程大纲共分九章 授课时间持续至2026年2月25日 [27] - 课程购买后不支持退款 有效期为2年 学员可在微信VIP群内获得答疑 [25] - 更多课程内容与咨询可通过添加小助理微信AIDriver005了解 [9][26]
宇树科技“绿色通道暂停”风波背后,谁在给机器人赛道泼冷水?
钛媒体APP· 2026-01-05 09:21
宇树科技IPO风波与基本面 - 2025年1月4日,宇树科技遭遇“A股绿色通道被叫停”传闻袭扰,公司迅速辟谣,称该报道内容与事实不符,公司未涉及申请绿色通道事宜,上市工作正常推进[1] - 宇树科技CEO王兴兴在朋友圈澄清传闻,公司已于2025年11月完成上市辅导,拟在A股IPO,由中信证券担任辅导机构,其上市路径走的是标准流程[2] - 宇树科技成立于2016年,以四足机器人起家,2023年占据全球四足机器狗69.75%的销量份额,2024年收入结构为:四足机器人占约65%,人形机器人占约30%,组件销售占约5%[2] - 公司人形机器人G1系列基础版售价9.9万元,2025年初发布的G1与H1产品上线即售罄,创始人透露公司年度营收已超10亿元,且自2020年以来每年保持盈利[3] - 公司已完成10轮融资,累计融资金额超过15亿元,2025年6月完成C轮融资,金额接近7亿元,投后估值超120亿元[3][4] 人形机器人行业现状与挑战 - “具身智能”和“人形机器人”成为创投圈热门关键词,截至2025年11月已有近30家机器人产业链公司向港交所递交上市申请,行业热度不亚于早年的自动驾驶或新能源[6] - 大多数人形机器人产品仍停留在演示阶段,如“走路摔跤”或“打拳跳舞”,尚未出现大规模、可复制的商业化应用,技术路径极其复杂[6] - 当前被寄予厚望的VLA模型遭遇现实瓶颈,其训练所需的动态、连续的“具身数据”极度稀缺,采集成本高、标注复杂,导致模型在控制、泛化等关键能力上难以突破[7] - 行业应用存在巨大不确定性,目前产品多集中在科研、教育与消费演示场景,而对实用性要求高的工业制造、安防巡检等To B场景仍未真正跑通[8] - 国家发改委在2025年11月27日表示,当前人形机器人在技术路线、商业化模式等方面尚未完全成熟,中国已有超过150家人形机器人企业,需注意防范产品“扎堆”上市等风险[13] 行业订单、产能与潜在泡沫 - 摩根士丹利报告指出,许多厂商宣布的“大额订单”中,相当一部分属于框架协议或意向订单,而非确定性的采购合同,执行确定性较低[10] - 业内存在对订单“内部消化”或“左手倒右手”关联订单的质疑,即订单可能在关联方之间流转,并非完全来自独立的第三方真实需求[10] - 高盛在2025年11月初对9家供应链企业调研后指出,大多数供应商正在中国及海外积极规划产能,规划的年产能规模介于10万台到100万台机器人等效单位之间,这种规划被高盛认为是“极其激进”的[10][11] - 目前没有一家供应商确认收到了大规模订单或明确的生产时间表,大量产线建设建立在对未来订单的假设之上[11][12] - 行业评论认为存在“靠故事先融钱、先建产线,订单还没来,估值已经翻番”的现象[13]
宇树科技上市绿色通道被叫停?王兴兴回应:“乱编的消息”
搜狐财经· 2026-01-04 21:08
宇树科技上市进程与官方回应 - 有消息称宇树科技A股上市的“绿色通道”被叫停,但上市本身并未叫停,相关人士透露此举是希望为机器人赛道降温,因行业泡沫太大 [2] - 宇树科技官方声明否认申请过“绿色通道”,称相关报道内容与事实不符,误导公众并侵害公司权益,公司已向主管部门反映并保留法律追责权利,同时确认上市工作正常推进 [3] - 公司创始人王兴兴通过社交软件回应称该消息是数周前的旧闻被乱编和扩大,呼吁大家不要当真 [3] - 根据中国证监会官网信息,宇树科技已于11月完成上市辅导,拟申请境内IPO,辅导机构为中信证券,若成功上市将成为“A股人形机器人第一股” [3] 人形机器人行业上市动态与竞争格局 - 除宇树科技外,包括乐聚智能、云深处科技、智元机器人在内的多家公司也有明确的上市动作 [3] - 行业面临商业化路径和技术路线尚不明确的挑战 [3] 人形机器人技术发展现状与瓶颈 - 从产品层面看,目前几乎所有人形机器人仍停留在演示阶段,如跳舞拳击、走路摔跤,技术发展仍困在迷雾中 [4] - 从技术路线看,2025年VLA模型在人形机器人领域遇到麻烦,其训练所需的核心数据是连续的、动态的、三维甚至四维的时空轨迹流,而非互联网上的静态非结构化数据 [5][6] - 物理世界数据的稀缺性与复杂性成为制约VLA模型能力跃升的主要瓶颈 [6] 行业订单与供应链现状分析 - 摩根士丹利报告指出,厂商高调宣布的“亿元级订单”中,相当一部分属于框架协议或意向订单,而非确定性的、不可撤销的采购合同,执行确定性较低 [6] - 业内存在对订单中夹杂“左手倒右手”关联订单的质疑,即订单可能在关联方或生态链企业间流转,并非完全来自独立的第三方真实需求 [6] - 高盛于2025年11月初对9家中国人形机器人供应链企业进行实地调研,报告指出大多数供应商正在中国及海外积极规划产能,规划的年产能规模介于10万台到100万台机器人等效单位之间 [7] - 高盛认为这种产能规划“极其激进”,目前没有一家公司确认收到了大规模订单或明确的生产时间表 [7] 行业融资环境与监管风险 - 在技术进展和盈利前景不明朗的现状下,大量人形机器人创业公司需要借助二级市场融资以持续竞争 [7] - 发改委相关部门负责人公开指出,当前人形机器人在技术路线、商业化模式、应用场景等方面尚未完全成熟,并提示需防范重复度高的产品“扎堆”上市、研发空间被压缩等风险 [7] - 一旦风险资本降温,被挡在二级市场门外的机器人创业公司,可能重演多年前自动驾驶领域的公司倒闭潮 [7]
王鹤团队最新工作!解决VLA 模型多依赖单视角图像,缺乏精准几何信息的问题
具身智能之心· 2026-01-04 16:58
文章核心观点 - 由Galbot、北京大学、香港大学等团队联合提出的StereoVLA模型,通过融合立体视觉的丰富几何线索,系统性解决了现有视觉-语言-动作模型因依赖单视角RGB图像而缺乏精准空间几何信息、难以满足高精度操纵需求的核心问题,为机器人精准操纵提供了全新解决方案 [1] 现有VLA模型的核心挑战 - **单模态视觉局限**:现有解决方案中,手腕相机视野有限且易遮挡、增加碰撞风险;深度传感器对透明或镜面物体测量噪声大;多相机配置则增加硬件复杂度,且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉虽能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角差异细微导致性能次优 [6] StereoVLA的技术架构 - **特征提取模块**:创新性地融合立体视觉的几何线索与单视角的语义信息 [8] - **几何特征提取**:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,该特征通过注意力混合代价过滤模块捕捉长程空间关联,且无需额外深度估计计算 [12] - **语义特征提取**:利用SigLIP与DINOv2,仅对左视角图像进行处理,获取富含语义的视觉令牌 [12] - **特征融合策略**:通过空间池化统一几何与语义特征的分辨率,采用通道维度拼接方式融合,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **辅助训练任务**:设计交互区域深度估计任务以强化模型细粒度空间感知能力 [8] - **聚焦交互区域**:将采样范围限制在夹持器与目标物体的交互区域,引导模型关注关键空间细节 [12] - **度量深度预测**:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,提升操纵精度并加速模型收敛 [12] - **大规模数据支撑**:构建多维度数据集以解决立体视觉VLA数据稀缺问题 [8] - **合成数据生成**:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对 [12] - **语义增强数据**:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务 [12] - **数据多样性设计**:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化 [12] StereoVLA的性能验证 - **核心任务性能突破**:在真实世界三类关键任务中,StereoVLA显著优于现有基线模型 [10] - **通用操纵任务**:包括常见物体抓取/放置、立方体堆叠等,成功率较基线提升明显 [13] - **条形物体抓取**:针对0°、45°、90°三种方向的条形物体,实现近完美抓取成功率 [13] - **中小尺寸物体抓取**:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比**:在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著 [17] - 相比前+侧面配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁 [17] - 具体数据:在单视角配置下,SpatialVLA-D模型在小/中/大随机化场景成功率分别为24.6%、13.7%、6.8%;在前+手腕配置下,GraspVLA模型成功率分别为71.3%、63.4%、54.8%;在前+侧面配置下,GraspVLA模型成功率分别为82.5%、55.7%、24.1%;而StereoVLA在立体配置下成功率分别为79.3%、71.9%、61.3% [14] - **核心模块消融验证**:通过系统消融实验验证各关键设计的必要性 [15] - **几何特征选择**:过滤后的代价体积表现最优,较相关体积+语义特征的组合,成功率从54.0%提升至77.0% [18] - **语义特征作用**:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [18] - **深度估计策略**:交互区域深度估计较全图像均匀采样,成功率提升18% [18] StereoVLA的局限与未来方向 - **图像分辨率限制**:224×224分辨率对1-2cm小型物体的语义接地与定位精度不足 [18] - **长时程依赖缺失**:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - **多机器人适配**:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - **特征提取优化**:可探索更多立体视觉基础模型的适配,进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - StereoVLA的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑,加速了通用自主机器人的落地进程 [16]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-01 06:34
文章核心观点 - 具身智能是人工智能发展的重要方向,被视为实现通用人工智能的关键路径,其核心在于智能体通过物理身体与环境进行交互学习,展现出自主性与适应性 [2] - 行业已从概念和实验室阶段迈向产业化初期,中美两国成为全球竞争的核心力量,市场潜力巨大,预计将开启万亿级市场规模 [1][6] - 尽管面临数据、技术、成本等多重瓶颈,但通过模型演进、政策支持、产业链协同与资本推动,行业正加速突破,商业化落地路径逐渐清晰 [13][21][29] 行业定义与特征 - 具身智能是机器学习、计算机视觉与机器人技术的综合体现,智能体通过“感知-理解-决策-行动”的闭环与环境交互并持续学习,是AI走向落地实用化的重要标志 [2] - 根据应用场景,主要分为商用具身智能和工业具身智能,前者服务于零售、餐饮、医疗等复杂动态环境,强调多模态感知与人机交互,后者面向制造、能源等结构化场景,强调高精度、高负载与稳定性 [4] 战略意义与政策环境 - 具身智能是推动科技产业链升级和培育新兴产业的关键力量,涉及芯片、传感器、AI大模型、能源等多个环节的协同创新,并带动制造、交通、零售等场景转型 [6] - 该领域是中美科技战略竞争的关键赛点,中国的发展关乎科技自立自强与国家竞争力提升,是实现“弯道超车”的重要机会 [6] - 中国已将具身智能纳入国家战略,中央与地方政府近两年密集出台行动方案、发展指导意见与资金支持政策,推动技术攻关、产业链协同和场景开放 [8][9] 发展阶段与全球格局 - 全球具身智能发展经历了三个阶段:1950年起的哲学思辨与概念萌芽期、2000-2020年的技术积累期、2020年至今的大模型驱动与应用拓展期 [11] - 美国凭借算力基础、顶尖模型与资本生态取得先发优势,中国则依托政策支持、场景驱动与产业链协同加速追赶,未来五年双方将在基础模型、算力和应用落地上展开竞争 [11] - 全球市场融资火热,2025年9月美国公司Figure完成超10亿美元C轮融资,估值达390亿美元,中国企业在2025年上半年也有多笔近亿美元级融资 [43][44] 技术瓶颈与突破方向 - 行业面临四大瓶颈:1)高质量多模态实操数据稀缺,缺乏数据评价机制;2)灵巧手、泛化能力与仿真到现实迁移等技术不成熟;3)核心部件与算力成本居高不下;4)商业投资回报周期长及伦理安全问题 [13] - 数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像四种方式,但高质量数据仍是关键瓶颈,业界正通过建设数据采集训练场、开发世界模型及便携化工具来寻求突破 [15][16][19] - 灵巧手是实现精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术工艺难度最大、成本占比较高的环节之一 [25] 模型演进与技术趋势 - 视觉-语言-动作模型已成为发展共识,其核心是通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,催生“机器人大脑” [21] - 模型演进路径清晰:2022年Google RT-1初步验证端到端范式,2023年RT-2提出VLA概念支持任务泛化,2024-2025年进入生态开放阶段,如英伟达推出开源基础模型Isaac GROOT [21][22] - 单一模型无法满足复杂现实需求,混合架构是必然趋势,行业共识是通过高层大模型进行认知与规划,结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同模式 [23] 商业化现状与趋势 - 当前商业化自主程度类比自动驾驶,处于L2(自主移动)向L3(低技能操作)的过渡阶段,类比大语言模型则达到GPT-2水平,未来2-3年可能达到能力质变的临界点 [27] - 大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,当前行业处于从技术验证到价值闭环的关键攻坚期 [29] - 商业化正沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景,如工业制造、仓储自动化和餐饮零售的基础环节,未来将向高复杂度、高价值的战略性场景渗透 [31][34] - 付费模式可能从当前的一次性硬件销售,逐步演进为降低客户前期投入的“机器人即服务”订阅模式,最终发展为按任务完成效果付费 [35] 市场规模预测 - 全球市场仍处于指数级增长前夜,据顶尖机构预测,2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求 [46] - 中国市场凭借完善的工业体系和供应链,预计五年左右进入快速降本通道,保守估计市场规模将从2025年的21亿元人民币增长至2035年的超过2800亿元人民币,实现十年百余倍增长 [49][50] 竞争格局与代表企业 - 全球竞争呈现三路玩家格局:1)以Figure为代表的AI原生技术挑战者;2)以ABB、擎朗智能为代表的拥有深厚硬件与客户基础的传统机器人玩家;3)以特斯拉、亚马逊为代表的从自身需求出发的跨界巨头 [55] - 产品同质化已现,高昂的研发投入、复杂的供应链管理等因素将驱动行业整合,未来三年内第一轮洗牌不可避免,最终格局将是少数玩家的市场 [57] - 初创企业需凭借灵活创新、快速决策和深度定制服务寻求差异化,并找到能带来长期赋能的战略伙伴,以应对制造业与互联网巨头的竞争 [59][60] **代表性企业动态** - **Figure AI**:致力于打造通用自主人形机器人,其Figure系列快速迭代,并自研了名为Helix的通用VLA模型,实现了跨场景的零样本学习能力,估值已达390亿美元 [64][65] - **擎朗智能**:实现人形与轮式机器人双线布局,构建了覆盖多场景的产品生态,其VLA大模型KOM2.0已驱动机器人在智慧酒店等场景商业化落地,并在全球60余个国家开展业务 [66][71][73][75] - **节卡机器人**:拥有从机器人整机到数据训练系统的多元产品生态,凭借在汽车、电子等工业场景的大规模部署积累数据优势,并通过分层混合架构推动技术快速落地 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过自研核心部件赋能灵巧手,解决了灵巧手对空间、精度和响应速度的极致要求,已在工业制造、人形机器人等领域实现商业化落地 [83][85][88] 中国产业出海 - 2024-2025年中国具身智能产业进入出海加速期,工业机器人出口额在2024年达11.3亿美元,同比增长43.22%,市场份额跃居全球第二 [53][54] - 出海模式正从“单点出货”迈向“体系化落地”,例如宇树科技以高扭矩关节电机等自研技术切入沙特市场,擎朗智能则通过产品本地化改造及建立密集服务网络成功打开日本市场 [53][54]
对话大晓机器人董事长王晓刚:不押注VLA,押注世界模型
搜狐财经· 2025-12-25 15:59
公司战略与技术路线 - 大晓机器人由商汤科技联合创始人王晓刚出任董事长,公司不涌入机器人本体赛道,不押注视觉语言动作模型,而是将全部筹码押注于“世界模型”方向 [6] - 公司认为现有主流技术路线存在明显缺陷,视觉语言动作模型是以机器为中心的范式,不需要真正理解物理世界和物理规律,难以支撑长时序、复杂任务和跨场景泛化 [4][6][7] - 公司提出的核心技术架构是“以人为中心的环境式采集、开悟世界模型,再加上具身交互”三层架构,其世界模型核心是“理解-合成-预测”的融合能力 [8][13] - 公司在产品化落地方面输出软硬一体的方案,在硬件方面与钛虎、鹿明等被投企业合作,并与影石Insta360合作将全景相机能力赋予机器人 [11][15] 行业现状与竞争格局 - 2025年具身智能是最拥挤也最焦虑的赛道之一,人形机器人价格已被压缩至万元以内,但技术路线分歧尖锐 [5] - 行业头部卡位尚未完成,领域远未成熟,目前能够规模量产的机器人场景主要是提供情绪价值的表演性质产品或作为科研平台,尚未出现能大幅提升生产力的规模化应用 [17] - 机器人行业的产业链分工尚未完善,成本依然很高,整个产业格局远未确定 [17] - 新公司的机会在于技术路线存在革命性变化的可能,以及产业链和规模化应用场景尚未成熟 [17] 市场机会与落地场景 - 公司短期看好的规模化落地产品是搭载了导航能力与各类AI应用能力的四足机器狗 [19] - 公司中期优先看好即时零售仓储应用场景,例如闪购仓、前置仓,这类场景需要大量人力支持7×24小时服务,机器人能充分发挥优势,预计明年国内将出现大量此类场景 [5][19] - 在世界模型范式下,机器人处理复杂场景的能力有望突破,例如前置仓场景中上万个不同类别的商品,新的技术范式有可能做到这一点 [23] - 公司更远期的目标指向五年后的家庭场景,但这更多涉及前沿技术探索 [20] 发展动因与竞争优势 - 商汤科技将具身智能业务剥离成立独立公司,是为了填补其在端侧软硬协同整体产品方面的空白,实现软硬件整合 [16] - 公司入局的契机是看到了以人为中心的ACE研究范式这一革命性变化,以及商汤过去积累的几千家客户资源能帮助快速实现规模化场景落地 [18] - 公司认为开源是其发展路径的关键,一旦开源可以获得各种反馈和场景,这也是中国在人工智能发展路径上的一个差异化点 [21][22]
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心· 2025-12-24 17:22
文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作,指出行业研究重点已从传统的监督微调转向强化学习,以提升模型的泛化与推理能力,并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司,代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献:提出双专家架构,通过决策专家进行场景推理与语言决策,动作专家将决策映射为轨迹,将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现:在Bench2Drive基准上,使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率,超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献:采用离散掩码扩散迭代优化未来轨迹,结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现:在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献:设计潜在思维链推理机制,使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来,提升推理效率与精度 [12] - 性能表现:在PhysicalAI-AV数据集上验证,相比文本链推理基线,实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献:设计可学习动作查询与视觉语言模型跨注意力交互,支持一步并行生成连续轨迹;融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略:采用监督微调与强化学习两阶段训练,结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献:构建因果链数据集,提供高质量的决策接地因果推理轨迹;设计模块化架构,融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现:实现99毫秒的实时推理延迟;在闭环仿真中,越野率降低35%,近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献:设计“快速响应/慢速思考”双模式自适应推理机制,让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现:在Navsim基准测试中取得90.3的PDMS分数,较最优视觉基线提升1.7点,同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献:构建nuScenesR²-6K数据集,采用“观察-计算-逻辑推理-反思验证”四步逻辑链;设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现:在nuScenes和Waymo数据集上实现最先进性能,7B版本平均L2误差低至0.20米,零样本迁移能力突出,较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世(中国)投资有限公司、上海大学、上海交通大学、博世汽车部件(苏州)有限公司、清华大学) - 核心贡献:提出轻量级奖励世界模型,基于逆强化学习从多模态数据中学习奖励结构,规避对仿真器的依赖;设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现:在NAVSIM v2基准上取得最先进性能,并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献:首次将主动感知应用于高级行为规划,设计含检索视图、感兴趣区域检查等工具的视觉工具包;提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现:仅3B参数就达到与GPT-5和人类驾驶相当的性能,在Drive-Internal测试集上使用工具后准确率提升6.07%,推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献:构建涵盖交通知识理解等五大领域的RP-COT数据集,提供长短链推理标注;设计基于GRPO的强化学习机制,结合多维度奖励对齐推理与规划 [37] - 性能表现:在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献:设计生成、精炼、质控三阶段分层数据管道,构建大规模视觉问答数据集以注入驾驶先验;提出认知引导扩散规划器,将视觉语言模型语义转化为连续轨迹 [38] - 性能表现:在NAVSIM等基准实现最先进性能 [38]
又火出圈!马斯克赞不绝口
格隆汇APP· 2025-12-22 19:12
市场表现与近期催化 - 2025年12月18日,王力宏成都演唱会首次引入六台宇树科技人形机器人伴舞,完成高难度空翻,特斯拉CEO马斯克转发视频并评论“令人印象深刻”,该话题冲上热搜 [2] - 2025年12月23日周一,A股人形机器人板块反弹,机器人ETF(159770)跟踪的标的指数当日上涨1.47% [2] - 机器人ETF(159770)已连续7日获资金净申购,合计净流入3亿元,居机器人主题ETF产品第一;年内资金净流入82.12亿元,最新规模98亿元,资金净流入和规模位居深市同标的第一 [13] - 2025年迄今,机器人ETF(159770)跟踪的标的指数累计上涨22% [12] 行业近期动态:技术、场景与订单 - **技术突破**:北京人形机器人创新中心正式开源国内首个且唯一通过具身智能国标测试的具身VLA大模型XR-1,以及配套的数据基础RoboMIND 2.0、ArtVIP最新版,推动国内具身智能行业迈向“全自主、更好用”的新阶段 [10] - **场景落地**:2025年12月20日,具身智能企业加速进化BoosterK1举行全球首批规模化量产交付仪式,将基于“前店后厂”模式进入科研、教育、展演、服务等场景 [11] - **场景落地**:2025年12月17日,千平智能宣布其自主研发的人形机器人“小墨”在宁德时代新能源动力电池PACK生产线上“上岗”,标志着全球首条实现人形具身智能机器人规模化落地的生产线正式投入运营 [11] - **订单进展**:优必选中标惠州市5962万元工业机器人项目,并与德州仪器达成战略合作;2025年迄今,优必选订单总额已接近14亿元,Walker S2已开启量产交付 [11] 2025年进展与2026年展望 - **2025年进展总结**:人形机器人在运动控制方面取得很大进步,特斯拉Optimus展示了从舞蹈、整理衣物到在餐厅“打工”、进行功夫训练及承担引导投票等职能的快速演变 [17][19][20] - **2026年行业关键词**:量产将成为2026年行业共同的关键词,板块预计将从“题材炒作”转向对“订单—业绩弹性”的追求 [15][24] - **量产挑战与路径**:马斯克指出制造人形机器人的三大挑战在于:灵巧的手、理解现实世界的AI大脑、大规模量产能力;其中,具身智能的AI大脑是当前量产最关键的挑战,主流厂商开始采用视觉-语言-动作模型替代传统硬代码控制 [24] - **量产推动逻辑**:只有具备一定机器人数量规模的整机公司才能积累足够数据和用户场景,使算法进入正反馈循环,因此整机厂有足够动力加快推进量产 [25] 国内外公司量产计划与产业格局 - **特斯拉计划**:面向量产和消费级市场的第三代Optimus机器人设计已确定,计划在2026年2-3月准备生产原型机,2026年底启动百万台级产能建设,并设定了年产上亿台的远期目标 [28] - **国内公司进展**: - 优必选2025年产能达1000台,实现数百台交付,2026年计划交付数千台量级 [28] - 智元机器人宣布其通用具身机器人累计下线5000台 [28] - 宇树科技开始建厂规划 [28] - 乐聚机器人、众擎机器人、小鹏汽车、越疆等公司均在推进 [28] - **中国产业优势与规模**:中国人形机器人应用联盟估计,到2025年,中国人形机器人出货量预计将达到2万台,同比增长超过614%,贡献全球年度出货量的75%至85% [30] - **优势来源**:完善的供应链体系、强大的制造能力降低了成本,广泛的具身智能测试场地(高校、科研院所等)以及“研发-制造-测试-应用”的闭环体系,使中国成为全球首批跨越“大规模交付”产业门槛的国家之一 [31][32] 2026年投资思路与方向 - **投资逻辑转变**:过去两年“只要沾边就能涨”的Beta行情已经结束,2026年将是精选产业链个股的Alpha行情 [38] - **确定性更强的方向**:在整机格局尚未完全稳固的当下,确定性更强的是上游核心零部件,因本土和海外需求增加,且国产供应链响应快、产能释放速度快 [33] - **具体投资维度**:2026年人形机器人投资或收敛至三个维度: 1. 头部整机厂的核心供应商(确定性最强) [33] 2. 具备量产能力的国产整机龙头(弹性最大) [33] 3. 核心零部件的国产替代先锋(有实质订单落地),如行星滚柱丝杠、谐波减速器、六维力矩传感器等 [33] - **供应链格局**:多条供应链持续构建,以整机厂为核心划分,如特斯拉链、宇树链、智元链、小鹏链等;随着特斯拉Gen 3设计定型开始量产,供应链也逐步收敛 [33] 相关金融产品概况 - **机器人ETF(159770)**:跟踪中证机器人指数,与Wind人形机器人指数成分股重合度达61%,布局人形机器人全产业链,一键布局特斯拉链、宇树链、智元链、优必选链等核心产业集群 [34] - **配置重点**:重点配置了具备规模化生产能力的零部件企业,如汇川技术、绿的谐波、鸣志电器等,在人形机器人与工业自动化间取得平衡 [34] - **前十大权重股**:包括汇川技术(权重9.77%)、科大讯飞(8.98%)、大华股份(5.21%)、中控技术(4.38%)、石头科技(4.38%)、大族激光(4.30%)、双环传动(3.76%)、机器人(2.98%)、云天励飞-U(2.56%)、科沃斯(2.52%),合计权重48.84% [35] - **行业定位**:人形机器人行业正处于类似于新能源汽车2015-2016年的前夜,产业奇点已至,板块仍有巨大成长空间,但分化即将来临 [36][37]
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由同济大学、电子科技大学等团队提出的MiVLA模型,通过“人机相互模仿预训练”范式,首次实现了无需真实机器人数据,仅融合模拟机器人数据与人类视频数据进行训练,就能在机器人视觉-语言-动作模型领域取得超越现有顶尖模型的泛化能力,为通用机器人策略学习提供了低成本、高可扩展的新路径 [2][19] 当前VLA模型训练的困境与MiVLA的解决方案 - 当前VLA模型训练面临双重困境:依赖真实机器人数据受限于高昂的采集成本、有限的场景与机器人形态覆盖,导致数据规模难以扩大;依赖单一模拟数据或人类数据则分别受限于“模拟-现实鸿沟”和人机形态差异导致的动作知识迁移难题 [3] - 现有方案无法同时解决“数据稀缺”与“跨模态迁移”的核心矛盾,而优质的VLA预训练需要“数据规模、行为保真、跨模态适配”三者的统一 [3] - MiVLA模型通过“人机双向动作映射消除形态鸿沟,相互模仿预训练融合双源数据优势”,构建了兼顾通用性与实用性的VLA模型 [3] MiVLA模型的核心设计特性 - **核心特性1:双向人机动作空间映射**:通过选取人类拇指指节姿态与机器人末端执行器姿态作为核心参考点,结合逆运动学或解剖学先验,实现人类与机器人动作坐标系的双向精准转换,并将人机专属关节空间与通用末端执行器空间统一对齐 [7] - **核心特性2:人机相互模仿预训练**:采用“预测-模仿”双任务预训练范式,模型从单一模态数据中学习双模态动作知识,利用L2损失函数同时优化“模态内动作预测”与“跨模态动作模仿”,实现了模拟机器人数据的操控多样性与人类视频数据的行为保真度的优势互补 [8][9] - **核心特性3:扩散Transformer架构**:采用“多模态编码器+扩散解码器”的统一架构,通过流匹配迭代去噪生成连续动作序列,兼顾多模态信息融合与连续动作生成精度,支持长序列任务的精准控制 [8] - **核心特性4:轻量化高效训练**:预训练仅需4块A100 GPU,批量大小为128,使用约900小时混合数据(模拟机器人+人类视频)的训练效果,即可比肩需要10000+小时真实机器人数据训练的π系列模型 [8][9] 关键实验结果 - **模拟环境性能领先**:在RoboTwin-2.0基准的20项代表性任务中,MiVLA在Easy模式下的平均成功率为69%,在Hard模式(含域随机化)下为66%,大幅超越ACT、H-RDT等基线模型 [9][10] - **真实机器人跨形态泛化能力突出**:在3类异构机器人(单臂PiPER、单臂ARX-5、双足+双臂LocoMan)的真实任务测试中,MiVLA以中等规模混合数据实现了平均55%的成功率,比肩使用大规模真实数据预训练的基线模型 [11][13] - **对未知形态的适配性**:在双足+双臂复合机器人LocoMan上,MiVLA成功完成了长序列双臂协同任务,而所有基线模型均未见过此全新架构,证明了其强大的跨模态泛化能力 [13] - **数据效率与泛化能力**:仅需20条演示数据,MiVLA即可实现对未知位置、物体的有效适配,全量训练后平均泛化成功率达54% [15][17] 核心组件有效性与未来方向 - **消融实验验证核心组件**:实验表明,完整的人机相互模仿预训练是性能提升的关键,仅使用人类数据预训练或单向模仿,性能均不及双向模仿的完整模型 [14] - **未来优化方向**:计划融合视觉语言模型的语义推理能力以提升对抽象指令和未知物体的适配性;扩展融入触觉、声音等多模态数据以强化复杂物理交互的控制精度;扩大数据覆盖范围至高精度灵巧任务及更多人形机器人形态,以提升通用化水平 [18]