文章核心观点 - 具身智能正从“大模型外挂机械手”的初级阶段,进入感知、决策与控制高度协同的“具身原生”时代 [9] - 原力灵机发布的开源具身原生框架Dexbotic 2.0及其与RLinf的战略合作,被定义为具身智能行业的“PyTorch时刻”,旨在通过标准化基建解决行业碎片化问题,降低开发门槛 [5][15] - 公司通过“框架孵化模型、模型驱动应用”的递进逻辑,构建了从底层框架(Dexbotic 2.0)、核心模型(DM0)到量产工作流(DFOL)的完整技术闭环,推动物理AGI发展 [51] 定义“具身原生”与行业痛点 - “具身原生”核心在于构建感知、决策与执行的高度闭环,包含数据原生、训练原生和框架原生三个层面 [15] - 当前行业痛点在于“大模型大脑+机器肢体”模式存在数字模型与物理世界的失配,机器人难以自主行动 [12] - 行业研发处于高度碎片化状态,开发者超过一半精力耗费在适配不同硬件接口、数据格式及仿真环境等底层工程上 [16] Dexbotic 2.0 框架详解 - 设计理念:旨在终结模块化与端到端之间的摇摆,在架构上保持高度解耦的模块化设计,但底层数据流是纯正的端到端逻辑 [22] - 核心特性1 - 框架原生(模块化):系统拆分为视觉编码、LLM认知规划、动作专家三个可自由组合的模块,支持独立升级,但训练时形成整体 [31][33] - 核心特性2 - 框架原生(操作与导航统一):在一个框架下实现了视觉-语言-动作(VLA)与视觉-语言-导航(VLN)的统一,为“全身控制”奠定基础 [35][37] - 核心特性3 - 数据原生:支持多模态互联网数据与具身数据的混合训练,让模型同时具备通用语义理解能力和可落地的操作技能 [39] - 核心特性4 - 训练原生(全流程标准化):建立了从数据采集、训练管线到仿真评测的标准化全流程,推出Dexdata统一数据格式,并深度适配多种主流仿真器 [45] - 核心特性5 - 训练原生(模仿学习与强化学习统一):通过统一框架打通从VLA策略初始化到强化学习后训练的闭环,集成了SimpleVLA-RL工具并与RLinf深度合作 [47] 核心模型DM0 - 定位与性能:DM0是全球首个具身原生大模型,在RoboChallenge真机评测中获得单任务与多任务双项第一,位居全球榜单第一 [57] - 关键参数:采用2.4B参数的轻量化设计,支持三视角728×728高分辨率输入,跨8种机型泛化,推理延迟约60ms,单机成功率达62.0% [57][58] - 技术特点:引入了“空间推理思维链”机制,将环境感知、任务理解、运动规划与精细执行串联成闭环 [59] - 模型架构:由一个VLM主干和一个基于流匹配(Flow Matching)的动作专家组成 [61] 量产工作流DFOL - 核心价值:通过“硬件通用+模型智能”的模式,打破非标自动化与人工的边界,实现具身应用的批量落地 [62] - 关键创新:构建了完整的数据回流机制,形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环,新任务可在两天内达到量产标准 [63][65] - 商业验证:构建了评估落地的三大硬性指标:成功率、动作质量与节拍,作为商业价值的“铁三角” [66] 生态合作与开源战略 - 战略合作:原力灵机宣布与由清华大学、无问芯穹支持的强化学习框架RLinf达成深度战略合作,双方分工明确,实现研发效率最大化 [68][69] - 融合计划:公布了“Dexbotic & RLinf融合研发计划”,预计2024年5月支持大规模真机强化学习,6月发布深度耦合的通用具身框架 [69] - 开源生态:坚定选择开源路径以汇聚行业力量,Dexbotic已汇聚包括清华大学、北京大学、普林斯顿大学、帝国理工学院、腾讯、通义千问等在内的全球化社区 [68][71] 未来展望与行业趋势 - 技术演进:强调触觉、六维力等多模态传感信息深度融合的重要性,并计划开发包含听觉与语音交互的全模态模型 [74] - 发展愿景:未来的机器人应像“灵巧的动物”一样,具备感知、理解空间和直觉反应的能力 [75] - 迭代速度:具身智能发展正在显著加速,从Dexbotic 1.0到2.0仅三个多月,行业迭代速度几乎每周都有新发布 [75] - 现实预期:对具身智能的近期期待是成为一个外形无威胁、能处理倒茶、擦桌子、聊天等简单事务的生活助手 [75]
「具身原生」元年!专访原力灵机汪天才,解析具身智能的「PyTorch时刻」
机器之心·2026-02-10 16:52