便携式手套 - 财报，业绩电话会，研报，新闻

便携式手套

搜索文档

贾鹏GTC2026讲灵巧手的强化学习框架完整图文版/压缩版/视频版

理想TOP2· 2026-03-16 14:34

公司概况与核心方法论 - 至简动力是一家专注于具身智能的初创公司，在半年内完成5轮融资，累计融资额达20亿人民币[1] - 公司核心团队拥有深厚的行业背景，CEO为前理想智能驾驶技术研发负责人贾鹏，董事长为前理想CTO王凯，COO为前理想智驾量产负责人王佳佳[1] - 公司提出了一套解决具身智能落地核心矛盾的方法论，包含四个关键方面：构建更高上限的一体化模型、采用更高效的数据采集方式、使用更高效的强化学习框架、实现端侧推理和训练[3][42][44][120] 行业挑战与公司目标 - 当前具身智能面临的核心难题是模型的**泛化能力差**与**用户要求100%成功率**之间的巨大现实鸿沟[2][36][37][40] - 在工厂等应用场景中，只有达到100%的成功率才能真正形成生产力，但现有模型在物体位置或光照条件改变时都可能失败[37][39] - 具身基础模型规模大、机器人硬件结构复杂，导致系统执行效率不高，难以满足工厂等高节拍场景的需求[38] 基座模型技术路线与设计理念 - 行业基座模型技术路线尚未收敛，存在三大流派：**双系统VLA**、**端到端VLA**和**世界模型**[4][49] - **双系统VLA**：用一个较大的视觉语言模型（VLM）进行理解和任务拆解，再用一个较小的模型快速执行，可处理长程任务，但两个模型协同和联合训练困难[4][5][52] - **端到端VLA**：将指令理解、任务拆解及动作生成合为一体，但基于预训练VLM继续训练时易发生**视觉能力**和**语言CoT能力**的灾难性遗忘，严重影响泛化能力[6][7][53] - **世界模型**：不以VLM为基础，基于视频或高斯生成模型，实现了从以语言为中心到以视觉为中心、从理解为主到生成为主的范式转变，泛化能力强但伴随幻觉问题，且在灵巧操作上性能未超越VLA，算力要求高[8][53] - 至简动力的模型设计理念是 **“Simple Scalable”**，追求结构简单以获得更好的扩展效率[8][53] - 公司认为具身基座模型需要四种核心能力：1) 对多模态信息（语言指令、任务逻辑、3D时空变化、本体状态）进行统一建模和理解[9][10][54]；2) 与世界进行闭环交互，实现多模态联合生成[11][55][56]；3) 具备高实时性[11][56]；4) 具备自我状态评估并调整动作的能力[11][56] 至简动力的“大一统”模型架构 - 公司认为具身基座模型的发展趋势是 **“Unification”（大一统）**，即未来通用模型将是一个大一统模型[12][57] - “大一统”包含四个层面的一体化：**多模态理解一体化**、**多模态生成一体化**、**快慢思考一体化**（模型自适应选择深度思考或快速执行）、**Policy和Critic一体化**（模型能执行动作也能评估和调整策略）[13][58][59][60] - 公司采用 **MoT（Mixture-of-Transformers）** 架构来实现单一Transformer处理多模态，其核心是不同模态通过共享Attention实现信息交互，同时保留独立的子网络[15][16][63][64] - MoT的优势在于能复用单模态基础模型，**成本非常低**，且扩展新模态**非常灵活方便**，这对需要多种模态的具身智能至关重要[17][18][65][66] - MoT天然兼容**自回归**和**扩散**两种生成方式，实践中发现扩散模型在3D动作生成上效果优于自回归模型[19][20][67] 核心模型：LaST-0 的性能与特点 - 至简动力推出的具身基座模型名为 **LaST-0**，它初始化自一个理解生成合一的基座模型，引入了 **Latent CoT**，结合了VLA和世界模型的优点[20][69] - LaST-0在紧凑的潜在空间中同时自回归地预测二维图像、3D点云及本体感知状态，实现**多模态的CoT**，并将隐式CoT扩展到未来关键帧，实现时空预测和生成[21][69][70] - 模型设计发现，每个模态仅需一个token即可，增加token数量对成功率提升不显著；时序预测越长，模型效果越好，且模型能自适应调整不同任务所需的预测时长[21][73][74][75] - 在仿真和真实场景的评估中，LaST-0均实现了SOTA（State-of-the-Art）性能，并且**比显式CoT的方法实现了约14倍的加速**[21][78] - LaST-0具备良好的容错和恢复能力，并能从桌面操作泛化到移动操作、双臂协作及高自由度人形机器人的复杂关节操作[79] - 该模型已成为北美顶尖实验室对比的基线模型[80] VLA模型泛化能力问题的根源与解决方案 - 基于VLM进行后训练会导致**灾难性遗忘**，尤其是视觉能力的遗忘，严重影响泛化能力和精细操作[7][53][81] - 分析发现，随着Transformer层数加深，**视觉特征逐渐减弱甚至消失**，这是VLA模型泛化能力差的根本原因[22][82] - 至简动力通过**MoT架构**，将视觉特征注入到更深层的Transformer层，从而大幅提升模型性能[23][84] 数据采集策略 - 行业获取数据主要有四种方法：**合成数据**、**真机数据采集**、**半真机采集**（如UMI）、**人类第一视角（Ego-centric）视频数据**[24][25][26][27][92][93][94] - 合成数据可快速规模化，但在模拟柔性物体、触觉力觉等方面不足[24][92] - 真机数据效果好，但采集效率低下[25][93] - 半真机采集效率高，但硬件（末端执行器）需与真机一致，限制使用范围[26][94] - 人类第一视角视频数据来源广，但质量不高，缺乏力觉、触觉等精细信息[27][94] - 至简动力选择使用**便携式手套**进行数据采集，该方案能保证数据效果和质量，方便扩展触觉、力觉等模态，是公司认为目前数据规模化的最佳方案[28][94] - 便携式手套采集的数据不仅能满足海量预训练需求，其高质量也能满足**SFT（监督微调）** 的要求，且工厂工人配合意愿高，不影响工作效率还能获得额外收入[28][95][96][99] 强化学习框架：Twin-RL 与 Double-L RL - 为实现单一任务100%的成功率，行业共识是使用强化学习，但当前面临**效率低下**和**容易过拟合**两大问题[102] - 至简动力提出 **Twin-RL虚实结合框架**，通过3DGS（3D Gaussian Splatting）将场景重建为虚拟数字孪生，在虚拟环境中放大模型探索空间并并行训练以提升效率，同时锁定易出错位置来指导真机强化学习，提升Human-in-the-loop效率[30][31][105] - 针对强化学习监督信号稀疏（只有成功/失败）的问题，公司提出 **Double-L强化学习框架**，利用基座模型生成的稠密时空潜在特征，在**Latent Feature生成**和**Action生成**两个层面进行双重强化，提升学习效果和效率[32][107] - 采用该方法，在大多数下游任务中，公司可以在**两分钟内实现100%的成功率**，且该成功率具备泛化性[110] 端侧部署与训练 - 为满足工厂对节拍、延迟的高要求及保密需求（不允许接入网络），系统必须具备**端侧实时推理和训练**能力[44] - 在英伟达的帮助下，公司进行了大量端侧优化，**全球第一个实现大模型在端侧部署并大规模量产**，并**在行业内第一个实现了端侧训练**[45][117] - 使用英伟达FP16、FP8混合精度训练和Video-training框架，训练效率提升，显存需求大幅减少[32][117] - 在产品上，普通工人**无需编程**，仅通过简单的拖动和语音指导，就能教会机器人完成新任务，提升了产品力和性价比[32][117] 总结与愿景 - 至简动力形成的方法论旨在推动具身智能从演示走向真实生产力，核心是：更高上限的一体化模型、更高效的数据采集、更高效的强化学习框架、端侧推理和训练框架[120] - 通过该方法论，公司能在保证模型泛化性的同时，在最短时间内实现单一任务100%的成功率[120] - 未来公司将通过**数据飞轮效应**持续提升基座模型的通用能力，实现各种场景下的泛化，最终实现通用具身智能[120]