「具身原生」元年！专访原力灵机汪天才，解析具身智能的「PyTorch时刻」

文章核心观点 - 具身智能正从“大模型外挂机械手”的初级阶段，进入感知、决策与控制高度协同的“具身原生”时代 [9] - 原力灵机发布的开源具身原生框架Dexbotic 2.0及其与RLinf的战略合作，被定义为具身智能行业的“PyTorch时刻”，旨在通过标准化基建解决行业碎片化问题，降低开发门槛 [5][15] - 公司通过“框架孵化模型、模型驱动应用”的递进逻辑，构建了从底层框架（Dexbotic 2.0）、核心模型（DM0）到量产工作流（DFOL）的完整技术闭环，推动物理AGI发展 [51] 定义“具身原生”与行业痛点 - “具身原生”核心在于构建感知、决策与执行的高度闭环，包含数据原生、训练原生和框架原生三个层面 [15] - 当前行业痛点在于“大模型大脑+机器肢体”模式存在数字模型与物理世界的失配，机器人难以自主行动 [12] - 行业研发处于高度碎片化状态，开发者超过一半精力耗费在适配不同硬件接口、数据格式及仿真环境等底层工程上 [16] Dexbotic 2.0 框架详解 - 设计理念：旨在终结模块化与端到端之间的摇摆，在架构上保持高度解耦的模块化设计，但底层数据流是纯正的端到端逻辑 [22] - 核心特性1 - 框架原生（模块化）：系统拆分为视觉编码、LLM认知规划、动作专家三个可自由组合的模块，支持独立升级，但训练时形成整体 [31][33] - 核心特性2 - 框架原生（操作与导航统一）：在一个框架下实现了视觉-语言-动作（VLA）与视觉-语言-导航（VLN）的统一，为“全身控制”奠定基础 [35][37] - 核心特性3 - 数据原生：支持多模态互联网数据与具身数据的混合训练，让模型同时具备通用语义理解能力和可落地的操作技能 [39] - 核心特性4 - 训练原生（全流程标准化）：建立了从数据采集、训练管线到仿真评测的标准化全流程，推出Dexdata统一数据格式，并深度适配多种主流仿真器 [45] - 核心特性5 - 训练原生（模仿学习与强化学习统一）：通过统一框架打通从VLA策略初始化到强化学习后训练的闭环，集成了SimpleVLA-RL工具并与RLinf深度合作 [47] 核心模型DM0 - 定位与性能：DM0是全球首个具身原生大模型，在RoboChallenge真机评测中获得单任务与多任务双项第一，位居全球榜单第一 [57] - 关键参数：采用2.4B参数的轻量化设计，支持三视角728×728高分辨率输入，跨8种机型泛化，推理延迟约60ms，单机成功率达62.0% [57][58] - 技术特点：引入了“空间推理思维链”机制，将环境感知、任务理解、运动规划与精细执行串联成闭环 [59] - 模型架构：由一个VLM主干和一个基于流匹配（Flow Matching）的动作专家组成 [61] 量产工作流DFOL - 核心价值：通过“硬件通用+模型智能”的模式，打破非标自动化与人工的边界，实现具身应用的批量落地 [62] - 关键创新：构建了完整的数据回流机制，形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环，新任务可在两天内达到量产标准 [63][65] - 商业验证：构建了评估落地的三大硬性指标：成功率、动作质量与节拍，作为商业价值的“铁三角” [66] 生态合作与开源战略 - 战略合作：原力灵机宣布与由清华大学、无问芯穹支持的强化学习框架RLinf达成深度战略合作，双方分工明确，实现研发效率最大化 [68][69] - 融合计划：公布了“Dexbotic & RLinf融合研发计划”，预计2024年5月支持大规模真机强化学习，6月发布深度耦合的通用具身框架 [69] - 开源生态：坚定选择开源路径以汇聚行业力量，Dexbotic已汇聚包括清华大学、北京大学、普林斯顿大学、帝国理工学院、腾讯、通义千问等在内的全球化社区 [68][71] 未来展望与行业趋势 - 技术演进：强调触觉、六维力等多模态传感信息深度融合的重要性，并计划开发包含听觉与语音交互的全模态模型 [74] - 发展愿景：未来的机器人应像“灵巧的动物”一样，具备感知、理解空间和直觉反应的能力 [75] - 迭代速度：具身智能发展正在显著加速，从Dexbotic 1.0到2.0仅三个多月，行业迭代速度几乎每周都有新发布 [75] - 现实预期：对具身智能的近期期待是成为一个外形无威胁、能处理倒茶、擦桌子、聊天等简单事务的生活助手 [75]