Workflow
具身原生模型
icon
搜索文档
物理AI的「原生」时刻:原力灵机发布具身大模型DM0
机器之心· 2026-03-11 11:51AI 处理中...
当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的 "预训练 - 后适配"(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导 致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。 为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从 0 开始」:从训练的 最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。 作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能 力。 ...
原力灵机具身大模型DM0硬核拆解:物理AI如何迎来自己的“原生”时代
AI科技大本营· 2026-02-28 11:27
文章核心观点 - 当前主流的大语言模型和视觉语言模型因依赖互联网静态数据而缺乏物理基础,难以直接应用于物理机器人,存在操作与导航割裂或灾难性遗忘等问题 [1] - 原力灵机与阶跃星辰联合提出的DM0模型是一种“具身原生”的视觉-语言-动作模型,其核心是从训练初期就将物理传感器与运动数据视为与语言、视觉同等重要的一等公民,旨在构建真正通用的机器人策略 [3][30] - DM0通过其创新的架构和训练方法,在RoboChallenge真实世界基准测试中,无论是单任务还是多任务设置,均以显著优势超越了现有的SOTA开源模型,展示了强大的物理世界泛化与执行能力 [3][24][27] 模型架构与方法论 - **核心架构**:DM0由两个主要组件构成:1)基于Qwen3-1.7B构建的VLM主干网络,配备高分辨率(728×728)感知编码器;2)基于流匹配的连续控制动作专家模块,它接收VLM的键值缓存作为条件输入以生成精确动作 [11][12] - **多源混合训练**:采用受“知识隔离”启发的混合梯度策略,在训练具身数据时,动作专家的梯度不会回传给VLM主干,从而防止机器人数据侵蚀VLM的通用语义知识,同时VLM继续使用非具身数据更新 [8] - **具身空间脚手架**:创新性地提出分层预测框架,通过顺序执行子任务预测、目标边界框预测、末端执行器轨迹预测和离散动作预测等辅助任务,构建空间维度的思维链,引导模型从抽象语义逐步过渡到底层控制 [9][13] 训练流程与数据 - **三阶段训练**:DM0的训练流程总计消耗高达1.2T Token的数据,分为预训练、中期训练和后期训练三个阶段 [16] - **预训练阶段**:在包含网页文本、教育文献、OCR、VQA、GUI界面、自动驾驶深度检测及大量具身数据的异构语料库上进行联合优化,数据规模达1.13T Token,使模型在获得语义知识的同时隐式掌握物理先验 [17] - **中期训练阶段**:引入动作预测模块,数据规模约200M样本,混合了跨形态的单臂/双臂机器人轨迹、仿真数据及视觉-语言指令微调数据,并专门构建了具身推理数据集以增强长程规划能力 [18] - **后期训练阶段**:使用约50M样本,将模型对齐到少数特定的真实机器人平台,减少不同机器人的分布方差,以建立稳定的视觉-运动映射 [19] 性能表现与实验结果 - **单任务评估**:在RoboChallenge Table30基准测试中,参数量仅为2.4B的DM0-Specialist模型取得了62.00%的平均成功率,全面超越了参数量更大的Spirit-v1.5 (4B, 51.00%)、GigaBrain-0.1 (3B, 51.67%) 和 pi0.5 (3B, 42.67%) 等SOTA开源模型 [23][24] - **多任务评估**:在跨任务适应能力的测试中,DM0-Generalist模型取得了37.3%的平均成功率和49.08的任务得分,大幅超越了之前最强的pi0.5模型的17.67%和31.27,在多个高精度空间理解任务中表现出色 [26][27] - **具体任务优势**:在“arrange fruits in basket”、“plug in network cable”、“sweep the rubbish”等长时序、强交互的复杂任务中,DM0取得了100%或80%的接近完美成绩,而其他基准模型在这些任务上经常彻底失败(0%) [24] 模型特点与能力 - **端到端统一**:DM0作为一个端到端模型,可以无缝统一机器人的精细操作与移动导航 [3] - **保留通用能力**:由于实施了知识隔离,DM0在获得强大动作执行能力的同时,完美保留了多模态对话能力,能在具身场景的物体检测、复杂图表OCR识别等任务中对答如流 [28] - **具备推理能力**:模型支持两种推理模式,既可直接预测连续动作,也可先通过VLM生成文本形式的具身推理过程(思维链),再引导动作专家输出动作 [7][28] 未来发展方向 - **模型规模扩展**:计划将DM0从目前的2B级别轻量化模型扩展至7B甚至30B规模,并吞吐更庞大的仿真与真实混合数据集,以探索物理推理层面的涌现能力 [32] - **多模态感知融合**:未来预训练阶段有望整合触觉反馈、音频以及纯深度信息,让机器人在视野受限的动态环境中也能游刃有余 [32] - **整合世界模型**:考虑将世界模型整合进DM0,赋予机器人预演动作后果并进行长期规划的能力,以解决跨越超长时间维度的任务难题 [32]