Workflow
便携式手套
icon
搜索文档
贾鹏GTC2026讲灵巧手的强化学习框架完整图文版/压缩版/视频版
理想TOP2· 2026-03-16 14:34
公司概况与核心方法论 - 至简动力是一家专注于具身智能的初创公司,在半年内完成5轮融资,累计融资额达20亿人民币[1] - 公司核心团队拥有深厚的行业背景,CEO为前理想智能驾驶技术研发负责人贾鹏,董事长为前理想CTO王凯,COO为前理想智驾量产负责人王佳佳[1] - 公司提出了一套解决具身智能落地核心矛盾的方法论,包含四个关键方面:构建更高上限的一体化模型、采用更高效的数据采集方式、使用更高效的强化学习框架、实现端侧推理和训练[3][42][44][120] 行业挑战与公司目标 - 当前具身智能面临的核心难题是模型的**泛化能力差**与**用户要求100%成功率**之间的巨大现实鸿沟[2][36][37][40] - 在工厂等应用场景中,只有达到100%的成功率才能真正形成生产力,但现有模型在物体位置或光照条件改变时都可能失败[37][39] - 具身基础模型规模大、机器人硬件结构复杂,导致系统执行效率不高,难以满足工厂等高节拍场景的需求[38] 基座模型技术路线与设计理念 - 行业基座模型技术路线尚未收敛,存在三大流派:**双系统VLA**、**端到端VLA**和**世界模型**[4][49] - **双系统VLA**:用一个较大的视觉语言模型(VLM)进行理解和任务拆解,再用一个较小的模型快速执行,可处理长程任务,但两个模型协同和联合训练困难[4][5][52] - **端到端VLA**:将指令理解、任务拆解及动作生成合为一体,但基于预训练VLM继续训练时易发生**视觉能力**和**语言CoT能力**的灾难性遗忘,严重影响泛化能力[6][7][53] - **世界模型**:不以VLM为基础,基于视频或高斯生成模型,实现了从以语言为中心到以视觉为中心、从理解为主到生成为主的范式转变,泛化能力强但伴随幻觉问题,且在灵巧操作上性能未超越VLA,算力要求高[8][53] - 至简动力的模型设计理念是 **“Simple Scalable”**,追求结构简单以获得更好的扩展效率[8][53] - 公司认为具身基座模型需要四种核心能力:1) 对多模态信息(语言指令、任务逻辑、3D时空变化、本体状态)进行统一建模和理解[9][10][54];2) 与世界进行闭环交互,实现多模态联合生成[11][55][56];3) 具备高实时性[11][56];4) 具备自我状态评估并调整动作的能力[11][56] 至简动力的“大一统”模型架构 - 公司认为具身基座模型的发展趋势是 **“Unification”(大一统)**,即未来通用模型将是一个大一统模型[12][57] - “大一统”包含四个层面的一体化:**多模态理解一体化**、**多模态生成一体化**、**快慢思考一体化**(模型自适应选择深度思考或快速执行)、**Policy和Critic一体化**(模型能执行动作也能评估和调整策略)[13][58][59][60] - 公司采用 **MoT(Mixture-of-Transformers)** 架构来实现单一Transformer处理多模态,其核心是不同模态通过共享Attention实现信息交互,同时保留独立的子网络[15][16][63][64] - MoT的优势在于能复用单模态基础模型,**成本非常低**,且扩展新模态**非常灵活方便**,这对需要多种模态的具身智能至关重要[17][18][65][66] - MoT天然兼容**自回归**和**扩散**两种生成方式,实践中发现扩散模型在3D动作生成上效果优于自回归模型[19][20][67] 核心模型:LaST-0 的性能与特点 - 至简动力推出的具身基座模型名为 **LaST-0**,它初始化自一个理解生成合一的基座模型,引入了 **Latent CoT**,结合了VLA和世界模型的优点[20][69] - LaST-0在紧凑的潜在空间中同时自回归地预测二维图像、3D点云及本体感知状态,实现**多模态的CoT**,并将隐式CoT扩展到未来关键帧,实现时空预测和生成[21][69][70] - 模型设计发现,每个模态仅需一个token即可,增加token数量对成功率提升不显著;时序预测越长,模型效果越好,且模型能自适应调整不同任务所需的预测时长[21][73][74][75] - 在仿真和真实场景的评估中,LaST-0均实现了SOTA(State-of-the-Art)性能,并且**比显式CoT的方法实现了约14倍的加速**[21][78] - LaST-0具备良好的容错和恢复能力,并能从桌面操作泛化到移动操作、双臂协作及高自由度人形机器人的复杂关节操作[79] - 该模型已成为北美顶尖实验室对比的基线模型[80] VLA模型泛化能力问题的根源与解决方案 - 基于VLM进行后训练会导致**灾难性遗忘**,尤其是视觉能力的遗忘,严重影响泛化能力和精细操作[7][53][81] - 分析发现,随着Transformer层数加深,**视觉特征逐渐减弱甚至消失**,这是VLA模型泛化能力差的根本原因[22][82] - 至简动力通过**MoT架构**,将视觉特征注入到更深层的Transformer层,从而大幅提升模型性能[23][84] 数据采集策略 - 行业获取数据主要有四种方法:**合成数据**、**真机数据采集**、**半真机采集**(如UMI)、**人类第一视角(Ego-centric)视频数据**[24][25][26][27][92][93][94] - 合成数据可快速规模化,但在模拟柔性物体、触觉力觉等方面不足[24][92] - 真机数据效果好,但采集效率低下[25][93] - 半真机采集效率高,但硬件(末端执行器)需与真机一致,限制使用范围[26][94] - 人类第一视角视频数据来源广,但质量不高,缺乏力觉、触觉等精细信息[27][94] - 至简动力选择使用**便携式手套**进行数据采集,该方案能保证数据效果和质量,方便扩展触觉、力觉等模态,是公司认为目前数据规模化的最佳方案[28][94] - 便携式手套采集的数据不仅能满足海量预训练需求,其高质量也能满足**SFT(监督微调)** 的要求,且工厂工人配合意愿高,不影响工作效率还能获得额外收入[28][95][96][99] 强化学习框架:Twin-RL 与 Double-L RL - 为实现单一任务100%的成功率,行业共识是使用强化学习,但当前面临**效率低下**和**容易过拟合**两大问题[102] - 至简动力提出 **Twin-RL虚实结合框架**,通过3DGS(3D Gaussian Splatting)将场景重建为虚拟数字孪生,在虚拟环境中放大模型探索空间并并行训练以提升效率,同时锁定易出错位置来指导真机强化学习,提升Human-in-the-loop效率[30][31][105] - 针对强化学习监督信号稀疏(只有成功/失败)的问题,公司提出 **Double-L强化学习框架**,利用基座模型生成的稠密时空潜在特征,在**Latent Feature生成**和**Action生成**两个层面进行双重强化,提升学习效果和效率[32][107] - 采用该方法,在大多数下游任务中,公司可以在**两分钟内实现100%的成功率**,且该成功率具备泛化性[110] 端侧部署与训练 - 为满足工厂对节拍、延迟的高要求及保密需求(不允许接入网络),系统必须具备**端侧实时推理和训练**能力[44] - 在英伟达的帮助下,公司进行了大量端侧优化,**全球第一个实现大模型在端侧部署并大规模量产**,并**在行业内第一个实现了端侧训练**[45][117] - 使用英伟达FP16、FP8混合精度训练和Video-training框架,训练效率提升,显存需求大幅减少[32][117] - 在产品上,普通工人**无需编程**,仅通过简单的拖动和语音指导,就能教会机器人完成新任务,提升了产品力和性价比[32][117] 总结与愿景 - 至简动力形成的方法论旨在推动具身智能从演示走向真实生产力,核心是:更高上限的一体化模型、更高效的数据采集、更高效的强化学习框架、端侧推理和训练框架[120] - 通过该方法论,公司能在保证模型泛化性的同时,在最短时间内实现单一任务100%的成功率[120] - 未来公司将通过**数据飞轮效应**持续提升基座模型的通用能力,实现各种场景下的泛化,最终实现通用具身智能[120]