Workflow
DM0
icon
搜索文档
原力灵机具身大模型DM0硬核拆解:物理AI如何迎来自己的“原生”时代
AI科技大本营· 2026-02-28 11:27
文章核心观点 - 当前主流的大语言模型和视觉语言模型因依赖互联网静态数据而缺乏物理基础,难以直接应用于物理机器人,存在操作与导航割裂或灾难性遗忘等问题 [1] - 原力灵机与阶跃星辰联合提出的DM0模型是一种“具身原生”的视觉-语言-动作模型,其核心是从训练初期就将物理传感器与运动数据视为与语言、视觉同等重要的一等公民,旨在构建真正通用的机器人策略 [3][30] - DM0通过其创新的架构和训练方法,在RoboChallenge真实世界基准测试中,无论是单任务还是多任务设置,均以显著优势超越了现有的SOTA开源模型,展示了强大的物理世界泛化与执行能力 [3][24][27] 模型架构与方法论 - **核心架构**:DM0由两个主要组件构成:1)基于Qwen3-1.7B构建的VLM主干网络,配备高分辨率(728×728)感知编码器;2)基于流匹配的连续控制动作专家模块,它接收VLM的键值缓存作为条件输入以生成精确动作 [11][12] - **多源混合训练**:采用受“知识隔离”启发的混合梯度策略,在训练具身数据时,动作专家的梯度不会回传给VLM主干,从而防止机器人数据侵蚀VLM的通用语义知识,同时VLM继续使用非具身数据更新 [8] - **具身空间脚手架**:创新性地提出分层预测框架,通过顺序执行子任务预测、目标边界框预测、末端执行器轨迹预测和离散动作预测等辅助任务,构建空间维度的思维链,引导模型从抽象语义逐步过渡到底层控制 [9][13] 训练流程与数据 - **三阶段训练**:DM0的训练流程总计消耗高达1.2T Token的数据,分为预训练、中期训练和后期训练三个阶段 [16] - **预训练阶段**:在包含网页文本、教育文献、OCR、VQA、GUI界面、自动驾驶深度检测及大量具身数据的异构语料库上进行联合优化,数据规模达1.13T Token,使模型在获得语义知识的同时隐式掌握物理先验 [17] - **中期训练阶段**:引入动作预测模块,数据规模约200M样本,混合了跨形态的单臂/双臂机器人轨迹、仿真数据及视觉-语言指令微调数据,并专门构建了具身推理数据集以增强长程规划能力 [18] - **后期训练阶段**:使用约50M样本,将模型对齐到少数特定的真实机器人平台,减少不同机器人的分布方差,以建立稳定的视觉-运动映射 [19] 性能表现与实验结果 - **单任务评估**:在RoboChallenge Table30基准测试中,参数量仅为2.4B的DM0-Specialist模型取得了62.00%的平均成功率,全面超越了参数量更大的Spirit-v1.5 (4B, 51.00%)、GigaBrain-0.1 (3B, 51.67%) 和 pi0.5 (3B, 42.67%) 等SOTA开源模型 [23][24] - **多任务评估**:在跨任务适应能力的测试中,DM0-Generalist模型取得了37.3%的平均成功率和49.08的任务得分,大幅超越了之前最强的pi0.5模型的17.67%和31.27,在多个高精度空间理解任务中表现出色 [26][27] - **具体任务优势**:在“arrange fruits in basket”、“plug in network cable”、“sweep the rubbish”等长时序、强交互的复杂任务中,DM0取得了100%或80%的接近完美成绩,而其他基准模型在这些任务上经常彻底失败(0%) [24] 模型特点与能力 - **端到端统一**:DM0作为一个端到端模型,可以无缝统一机器人的精细操作与移动导航 [3] - **保留通用能力**:由于实施了知识隔离,DM0在获得强大动作执行能力的同时,完美保留了多模态对话能力,能在具身场景的物体检测、复杂图表OCR识别等任务中对答如流 [28] - **具备推理能力**:模型支持两种推理模式,既可直接预测连续动作,也可先通过VLM生成文本形式的具身推理过程(思维链),再引导动作专家输出动作 [7][28] 未来发展方向 - **模型规模扩展**:计划将DM0从目前的2B级别轻量化模型扩展至7B甚至30B规模,并吞吐更庞大的仿真与真实混合数据集,以探索物理推理层面的涌现能力 [32] - **多模态感知融合**:未来预训练阶段有望整合触觉反馈、音频以及纯深度信息,让机器人在视野受限的动态环境中也能游刃有余 [32] - **整合世界模型**:考虑将世界模型整合进DM0,赋予机器人预演动作后果并进行长期规划的能力,以解决跨越超长时间维度的任务难题 [32]
具身智能如何抵达 “ChatGPT时刻”?智源院长、清华教授和3位创始人聊了聊
36氪· 2026-02-13 18:50
文章核心观点 - 具身智能行业尚未迎来其“ChatGPT时刻”,业内对此刻的定义存在非共识,普遍认为其实现比大语言模型更困难,需在场景、任务、操作物体等多维度实现泛化 [1][9][10] - 当前行业共识是优先在垂直场景实现商业化闭环,积累真机数据以驱动模型迭代,而非追求广泛的泛化能力 [2][3][6] - 中国在具身智能的产业链、供应链及迭代速度上相比美国具有显著优势,但行业整体仍处早期发展阶段 [6][7][8][12] 行业现状与挑战 - 技术路线仍处发展中,主流包括分模块式(VLM+控制)、端到端VLA以及世界模型等,但均未取得彻底突破 [5] - 硬件面临连续稳定工作、安全性、电池续航等多重挑战,真机部署后与大规模应用仍有较大差距 [5] - 商业化落地链条更长,涉及整机、供应链、真机数据、线下交付等多个环节,不似大语言模型“模型即产品” [2][11] - 行业缺乏统一、基于物理世界真机的大规模评测标准,现有Benchmark规模小且可能无法反映真实能力 [13] 发展路径与策略 - 优先在限定场景实现任务闭环,并确保商业模式的ROI(投资回报率)可行,使具身智能从“玩具”变为“有用工具” [2][12] - 通过“VLA+强化学习”逐个场景解决,在真机运行中积累数据形成闭环,再解决泛化问题 [6] - 建立高频、基于真机的统一评测标准(如RoboChallenge)对行业进步至关重要,能提供公允的迭代反馈环境 [13][15][17] - 需加强学术界与产业界的联动,共同推动技术发展和标准制定 [7][17] 中美竞争格局 - 美国在模型、数据等基础层面起步更早,有一定先发优势 [6] - 中国在制造业、完整产业链及供应链方面优势明显,硬件迭代和维修周期比美国快5到10倍,成本低5到10倍 [7][8][12] - 中国在具身智能领域的投入强度已超过美国,结合应用开放和产学研联动,可能实现更快突破 [7] - 行业整体仍处早期,尚未分出明显优劣 [8] 公司动态与案例(原力灵机) - 原力灵机成立于2025年3月,核心团队来自旷视科技,成立不到一年累计融资近10亿元,股东包括阿里巴巴、蔚来资本、联想创投等 [3] - 公司选择先联合HuggingFace推出真机评测Benchmark“RoboChallenge”,再发布自家模型,旨在为行业建立统一评测标尺 [3][13] - 2026年2月10日,公司发布首个模型DM0,以24亿参数量在RoboChallenge评测中排名榜首 [3] - 公司致力于开发具身框架Dexbotic等基础设施,并强调其参与评测的模型代码已彻底开源,可供验证 [21] 2026年行业展望与预测 - 2026年被普遍认为是具身智能应用闭环和爆发的一年,关键指标可参考开源模型数量的增长 [12] - 期待在生产力端看到明确的增长路径,并在单一场景实现上千台甚至上万台机器人的持续规模化运行 [24][25] - 期待在硬件、数据、模型输出等标准制定上取得突破,以解决当前生态碎片化问题 [23] - 期待形成“云-边-端”协同的体系,并构建适配机器人与人类共生的新型基础设施 [22]
对话原力灵机周而进:模型2.4B就够用,关键是“具身原生”;能闭环才是最高效方法
量子位· 2026-02-13 13:42
公司及产品发布 - 具身智能创企原力灵机推出了其首个具身原生大模型产品DM0,参数量仅为24亿(2.4B)[5] - 同时发布的还有开源具身原生框架Dexbotic 2.0,以及解锁具身应用量产的工作流DFOL,共同构成“具身软件三件套”[8] - 在RoboChallenge大规模真机评测中,DM0取得了单任务和多任务双料第一,综合得分72.25,成功率为62.00%[31][32] 技术路线与核心特点 - 公司追求“具身原生”路线,强调从数据采集、推理到控制都应源自物理世界反馈,而非数字世界的派生模态[21] - DM0模型从底层将感知、推理、控制整合为闭环,并通过空间推理思维链内生出具身智能[23] - 模型训练从零开始,融合了互联网、智能驾驶和具身多传感数据,旨在让模型从初始阶段就理解物理世界[27][28][40][42] - 模型采用多源、多任务、多机型训练,目前使用了8种不同本体的机器人数据,以学习通用操作逻辑而非特定机器参数[25][55][56] - 模型能够实时处理三视角的728x728画面,推理延迟仅60毫秒,并可通过强化学习在真机上试错进化[4] 数据策略 - 训练数据主要来自三个来源:互联网数据、智能辅助驾驶数据和具身智能数据,三者角色不同,混合比例根据实验动态调整[62][66][68] - 数据采集遵循“全身全时全域”原则:“全身”指包含底盘移动、躯干协调及所有传感器反馈;“全时”强调记录从意图产生到动作执行及修正的连续因果链;“全域”是未来在空间场景覆盖上的规划[82][83][85][88] - 数据采集策略是“熵在哪里,数据就投向哪里”,针对模型表现不佳的高不确定性任务进行针对性数据补充,实现以需定采的反馈闭环[72][75][76] - 在物理规则确定的低熵场景,通过算力生成仿真数据;在物理或语义模糊的高熵场景,则依赖真机采集真实交互数据[78][79][80] 模型能力与效果 - DM0的核心设计引入了空间推理思维链,这是一种三维物理世界的推演能力,能将视觉特征转化为精确的空间坐标和轨迹,以应对如“收拾桌面”等模糊指令[104][105][106][107] - 结合高分辨率输入,空间推理思维链能让模型处理毫米级精度的任务,识别并执行微小的位置差异[112][113] - 模型设计中借鉴了世界模型的范式,将其视为一种模型内的世界理解方式,用于在不执行动作的前提下推理动作后果,以支持决策和规划[158][159][162] 应用场景与商业化 - 公司选择物流场景作为首要落地切入点,因其场景明确、具备高度可复制性,且能带来规模化数据回流[125][147][150] - 在物流场景中,公司专注于物料分拣等任务,其复杂性体现在需要处理柔性/刚性混杂、随意摆放的物体,并实现精细操作[127] - 公司认为精细动作是真正的挑战,其前提是精细感知,因此模型设计非常看重高分辨率输入下的稳定性[131][135][136] - 公司的商业化路线图是:从物流场景开始,先做专项能力产品进入仓储环境,然后逐步推向ToB靠近ToC的场景(如门店导购),最终在技术、成本、安全性成熟后走向家庭场景[154][155][156] 团队背景 - 公司核心团队由前旷视成员组成,包括合伙人周而进(负责大模型)、范浩强、汪天才,以及担任CEO的前旷视联合创始人唐文斌[16][17][177] - 周而进是信息学竞赛金牌选手,拥有深厚的AI背景,早在2013年就以实习生身份在ICCV比赛中获得冠军[12][14] 行业观点与公司理念 - 公司认为当前行业主流方案是“VLM+Action Head”思路,即大模型负责识别推理,动作头负责执行[18][19] - 公司强调机器人必须尽早实现7×24小时真实环境运行,只有这样才能暴露工程问题、获得真实数据回流,形成数据飞轮[115][116][117][121] - 公司对具身智能的终极展望是机器人能够拥有广泛的社会身份,例如具备独立的支付和结算能力,成为社会化的接口[168][170][172]
雷军宣布初代小米SU7停产;传百度秘密启动“O计划”
21世纪经济报道· 2026-02-11 10:26
巨头风向标 - 小米汽车宣布第一代SU7正式停产,累计交付量接近**37万辆**,公司目前暂无进入美国市场的计划 [2] - 百度据传秘密启动与百度APP相关的“O计划”,其文心助手月活用户数已突破**2亿**,并以**5亿**红包入局春节AI营销 [3] - 智谱股价连续两日强势领涨,盘中一度高见**344港元**,较其**116.2港元**的发行价累计涨幅近**200%**,市场猜测其或将发布新一代大模型GLM-5 [4] - 字节跳动对视频生成模型Seedance2.0进行紧急优化,内测期间暂不支持输入真人图片或视频作为主体参考 [5] - 追觅科技创始人俞浩在社交媒体公开邀请华为余承东加入其公司 [6] - 阿里巴巴推出新一代图像生成基础模型Qwen-Image-2.0,开发者可通过API邀测或QwenChat免费体验 [7] - 字节跳动上线图像生成模型Seedream5.0 Preview,在旗下多款应用开启灰度测试或限时免费体验 [8][9] - 支付宝全新上线Robotaxi打车小程序,聚合小马智行等服务商,运营区域已覆盖广州、东莞、北京、武汉、深圳五个城市的部分地区 [10] 最芯见闻 - 本田汽车公布第三季度经营利润为**1533.6亿日元**,净利润为**1536.1亿日元**,销售净额为**5.34万亿日元**,均超预期,并已制定方案以防芯片供应短缺问题再次发生 [11] - 摩尔线程开源TileLang-MUSA项目,旨在降低开发门槛,为国产算力平台提供更高效的AI与高性能计算开发体验 [12] 上市资本流 - 具身智能企业“穹彻智能”完成**数亿元**A轮融资,由C资本领投,融资将用于大模型研发迭代及发布智慧药房解决方案 [13] - 机器人公司“大晓机器人”完成天使轮融资,由蚂蚁集团领投,商汤国香资本等老股东持续增资 [14] 潮新品 - 原力灵机发布全球首个具身原生大模型DM0(**2.4B**参数)、原生开发框架Dexbotic 2.0及具身原生应用量产工作流DFOL [15] - 腾讯混元开源面向消费级硬件的“极小”模型HY-1.8B-2Bit,通过2Bit量化技术,等效参数量约为**0.3B**,实际存储占用仅约**600MB** [16]
「具身原生」元年!专访原力灵机汪天才,解析具身智能的「PyTorch时刻」
机器之心· 2026-02-10 16:52
文章核心观点 - 具身智能正从“大模型外挂机械手”的初级阶段,进入感知、决策与控制高度协同的“具身原生”时代 [9] - 原力灵机发布的开源具身原生框架Dexbotic 2.0及其与RLinf的战略合作,被定义为具身智能行业的“PyTorch时刻”,旨在通过标准化基建解决行业碎片化问题,降低开发门槛 [5][15] - 公司通过“框架孵化模型、模型驱动应用”的递进逻辑,构建了从底层框架(Dexbotic 2.0)、核心模型(DM0)到量产工作流(DFOL)的完整技术闭环,推动物理AGI发展 [51] 定义“具身原生”与行业痛点 - “具身原生”核心在于构建感知、决策与执行的高度闭环,包含数据原生、训练原生和框架原生三个层面 [15] - 当前行业痛点在于“大模型大脑+机器肢体”模式存在数字模型与物理世界的失配,机器人难以自主行动 [12] - 行业研发处于高度碎片化状态,开发者超过一半精力耗费在适配不同硬件接口、数据格式及仿真环境等底层工程上 [16] Dexbotic 2.0 框架详解 - **设计理念**:旨在终结模块化与端到端之间的摇摆,在架构上保持高度解耦的模块化设计,但底层数据流是纯正的端到端逻辑 [22] - **核心特性1 - 框架原生(模块化)**:系统拆分为视觉编码、LLM认知规划、动作专家三个可自由组合的模块,支持独立升级,但训练时形成整体 [31][33] - **核心特性2 - 框架原生(操作与导航统一)**:在一个框架下实现了视觉-语言-动作(VLA)与视觉-语言-导航(VLN)的统一,为“全身控制”奠定基础 [35][37] - **核心特性3 - 数据原生**:支持多模态互联网数据与具身数据的混合训练,让模型同时具备通用语义理解能力和可落地的操作技能 [39] - **核心特性4 - 训练原生(全流程标准化)**:建立了从数据采集、训练管线到仿真评测的标准化全流程,推出Dexdata统一数据格式,并深度适配多种主流仿真器 [45] - **核心特性5 - 训练原生(模仿学习与强化学习统一)**:通过统一框架打通从VLA策略初始化到强化学习后训练的闭环,集成了SimpleVLA-RL工具并与RLinf深度合作 [47] 核心模型DM0 - **定位与性能**:DM0是全球首个具身原生大模型,在RoboChallenge真机评测中获得单任务与多任务双项第一,位居全球榜单第一 [57] - **关键参数**:采用2.4B参数的轻量化设计,支持三视角728×728高分辨率输入,跨8种机型泛化,推理延迟约60ms,单机成功率达62.0% [57][58] - **技术特点**:引入了“空间推理思维链”机制,将环境感知、任务理解、运动规划与精细执行串联成闭环 [59] - **模型架构**:由一个VLM主干和一个基于流匹配(Flow Matching)的动作专家组成 [61] 量产工作流DFOL - **核心价值**:通过“硬件通用+模型智能”的模式,打破非标自动化与人工的边界,实现具身应用的批量落地 [62] - **关键创新**:构建了完整的数据回流机制,形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环,新任务可在两天内达到量产标准 [63][65] - **商业验证**:构建了评估落地的三大硬性指标:成功率、动作质量与节拍,作为商业价值的“铁三角” [66] 生态合作与开源战略 - **战略合作**:原力灵机宣布与由清华大学、无问芯穹支持的强化学习框架RLinf达成深度战略合作,双方分工明确,实现研发效率最大化 [68][69] - **融合计划**:公布了“Dexbotic & RLinf融合研发计划”,预计2024年5月支持大规模真机强化学习,6月发布深度耦合的通用具身框架 [69] - **开源生态**:坚定选择开源路径以汇聚行业力量,Dexbotic已汇聚包括清华大学、北京大学、普林斯顿大学、帝国理工学院、腾讯、通义千问等在内的全球化社区 [68][71] 未来展望与行业趋势 - **技术演进**:强调触觉、六维力等多模态传感信息深度融合的重要性,并计划开发包含听觉与语音交互的全模态模型 [74] - **发展愿景**:未来的机器人应像“灵巧的动物”一样,具备感知、理解空间和直觉反应的能力 [75] - **迭代速度**:具身智能发展正在显著加速,从Dexbotic 1.0到2.0仅三个多月,行业迭代速度几乎每周都有新发布 [75] - **现实预期**:对具身智能的近期期待是成为一个外形无威胁、能处理倒茶、擦桌子、聊天等简单事务的生活助手 [75]
全球首个具身原生大模型DM0发布,联合阶跃星辰训练
新浪财经· 2026-02-10 14:44
公司产品发布 - 原力灵机于2月10日在其技术开放日上发布了全球首个具身原生大模型DM0 [1] - DM0是从0开始训练的具身原生大模型,由原力灵机联合阶跃星辰共同训练 [1] - 该模型深度融合多模态互联网信息,并涵盖驾驶行为数据、机器人操作、导航等具身场景特有的多传感数据 [1] 模型技术特点 - DM0在预训练阶段系统混合了抓取、导航、全身控制三类核心任务 [1] - 模型训练覆盖了8种差异显著的机型,从而获得了强大的跨机型泛化与迁移能力 [1] 模型性能表现 - 在RoboChallage真机评测中,DM0获得了单任务与多任务双项第一 [1] - 目前DM0在RoboChallage榜单上位居全球第一 [1]