Workflow
DFOL
icon
搜索文档
对话原力灵机周而进:模型2.4B就够用,关键是“具身原生”;能闭环才是最高效方法
量子位· 2026-02-13 13:42
公司及产品发布 - 具身智能创企原力灵机推出了其首个具身原生大模型产品DM0,参数量仅为24亿(2.4B)[5] - 同时发布的还有开源具身原生框架Dexbotic 2.0,以及解锁具身应用量产的工作流DFOL,共同构成“具身软件三件套”[8] - 在RoboChallenge大规模真机评测中,DM0取得了单任务和多任务双料第一,综合得分72.25,成功率为62.00%[31][32] 技术路线与核心特点 - 公司追求“具身原生”路线,强调从数据采集、推理到控制都应源自物理世界反馈,而非数字世界的派生模态[21] - DM0模型从底层将感知、推理、控制整合为闭环,并通过空间推理思维链内生出具身智能[23] - 模型训练从零开始,融合了互联网、智能驾驶和具身多传感数据,旨在让模型从初始阶段就理解物理世界[27][28][40][42] - 模型采用多源、多任务、多机型训练,目前使用了8种不同本体的机器人数据,以学习通用操作逻辑而非特定机器参数[25][55][56] - 模型能够实时处理三视角的728x728画面,推理延迟仅60毫秒,并可通过强化学习在真机上试错进化[4] 数据策略 - 训练数据主要来自三个来源:互联网数据、智能辅助驾驶数据和具身智能数据,三者角色不同,混合比例根据实验动态调整[62][66][68] - 数据采集遵循“全身全时全域”原则:“全身”指包含底盘移动、躯干协调及所有传感器反馈;“全时”强调记录从意图产生到动作执行及修正的连续因果链;“全域”是未来在空间场景覆盖上的规划[82][83][85][88] - 数据采集策略是“熵在哪里,数据就投向哪里”,针对模型表现不佳的高不确定性任务进行针对性数据补充,实现以需定采的反馈闭环[72][75][76] - 在物理规则确定的低熵场景,通过算力生成仿真数据;在物理或语义模糊的高熵场景,则依赖真机采集真实交互数据[78][79][80] 模型能力与效果 - DM0的核心设计引入了空间推理思维链,这是一种三维物理世界的推演能力,能将视觉特征转化为精确的空间坐标和轨迹,以应对如“收拾桌面”等模糊指令[104][105][106][107] - 结合高分辨率输入,空间推理思维链能让模型处理毫米级精度的任务,识别并执行微小的位置差异[112][113] - 模型设计中借鉴了世界模型的范式,将其视为一种模型内的世界理解方式,用于在不执行动作的前提下推理动作后果,以支持决策和规划[158][159][162] 应用场景与商业化 - 公司选择物流场景作为首要落地切入点,因其场景明确、具备高度可复制性,且能带来规模化数据回流[125][147][150] - 在物流场景中,公司专注于物料分拣等任务,其复杂性体现在需要处理柔性/刚性混杂、随意摆放的物体,并实现精细操作[127] - 公司认为精细动作是真正的挑战,其前提是精细感知,因此模型设计非常看重高分辨率输入下的稳定性[131][135][136] - 公司的商业化路线图是:从物流场景开始,先做专项能力产品进入仓储环境,然后逐步推向ToB靠近ToC的场景(如门店导购),最终在技术、成本、安全性成熟后走向家庭场景[154][155][156] 团队背景 - 公司核心团队由前旷视成员组成,包括合伙人周而进(负责大模型)、范浩强、汪天才,以及担任CEO的前旷视联合创始人唐文斌[16][17][177] - 周而进是信息学竞赛金牌选手,拥有深厚的AI背景,早在2013年就以实习生身份在ICCV比赛中获得冠军[12][14] 行业观点与公司理念 - 公司认为当前行业主流方案是“VLM+Action Head”思路,即大模型负责识别推理,动作头负责执行[18][19] - 公司强调机器人必须尽早实现7×24小时真实环境运行,只有这样才能暴露工程问题、获得真实数据回流,形成数据飞轮[115][116][117][121] - 公司对具身智能的终极展望是机器人能够拥有广泛的社会身份,例如具备独立的支付和结算能力,成为社会化的接口[168][170][172]
雷军宣布初代小米SU7停产;传百度秘密启动“O计划”
21世纪经济报道· 2026-02-11 10:26
巨头风向标 - 小米汽车宣布第一代SU7正式停产,累计交付量接近**37万辆**,公司目前暂无进入美国市场的计划 [2] - 百度据传秘密启动与百度APP相关的“O计划”,其文心助手月活用户数已突破**2亿**,并以**5亿**红包入局春节AI营销 [3] - 智谱股价连续两日强势领涨,盘中一度高见**344港元**,较其**116.2港元**的发行价累计涨幅近**200%**,市场猜测其或将发布新一代大模型GLM-5 [4] - 字节跳动对视频生成模型Seedance2.0进行紧急优化,内测期间暂不支持输入真人图片或视频作为主体参考 [5] - 追觅科技创始人俞浩在社交媒体公开邀请华为余承东加入其公司 [6] - 阿里巴巴推出新一代图像生成基础模型Qwen-Image-2.0,开发者可通过API邀测或QwenChat免费体验 [7] - 字节跳动上线图像生成模型Seedream5.0 Preview,在旗下多款应用开启灰度测试或限时免费体验 [8][9] - 支付宝全新上线Robotaxi打车小程序,聚合小马智行等服务商,运营区域已覆盖广州、东莞、北京、武汉、深圳五个城市的部分地区 [10] 最芯见闻 - 本田汽车公布第三季度经营利润为**1533.6亿日元**,净利润为**1536.1亿日元**,销售净额为**5.34万亿日元**,均超预期,并已制定方案以防芯片供应短缺问题再次发生 [11] - 摩尔线程开源TileLang-MUSA项目,旨在降低开发门槛,为国产算力平台提供更高效的AI与高性能计算开发体验 [12] 上市资本流 - 具身智能企业“穹彻智能”完成**数亿元**A轮融资,由C资本领投,融资将用于大模型研发迭代及发布智慧药房解决方案 [13] - 机器人公司“大晓机器人”完成天使轮融资,由蚂蚁集团领投,商汤国香资本等老股东持续增资 [14] 潮新品 - 原力灵机发布全球首个具身原生大模型DM0(**2.4B**参数)、原生开发框架Dexbotic 2.0及具身原生应用量产工作流DFOL [15] - 腾讯混元开源面向消费级硬件的“极小”模型HY-1.8B-2Bit,通过2Bit量化技术,等效参数量约为**0.3B**,实际存储占用仅约**600MB** [16]
「具身原生」元年!专访原力灵机汪天才,解析具身智能的「PyTorch时刻」
机器之心· 2026-02-10 16:52
文章核心观点 - 具身智能正从“大模型外挂机械手”的初级阶段,进入感知、决策与控制高度协同的“具身原生”时代 [9] - 原力灵机发布的开源具身原生框架Dexbotic 2.0及其与RLinf的战略合作,被定义为具身智能行业的“PyTorch时刻”,旨在通过标准化基建解决行业碎片化问题,降低开发门槛 [5][15] - 公司通过“框架孵化模型、模型驱动应用”的递进逻辑,构建了从底层框架(Dexbotic 2.0)、核心模型(DM0)到量产工作流(DFOL)的完整技术闭环,推动物理AGI发展 [51] 定义“具身原生”与行业痛点 - “具身原生”核心在于构建感知、决策与执行的高度闭环,包含数据原生、训练原生和框架原生三个层面 [15] - 当前行业痛点在于“大模型大脑+机器肢体”模式存在数字模型与物理世界的失配,机器人难以自主行动 [12] - 行业研发处于高度碎片化状态,开发者超过一半精力耗费在适配不同硬件接口、数据格式及仿真环境等底层工程上 [16] Dexbotic 2.0 框架详解 - **设计理念**:旨在终结模块化与端到端之间的摇摆,在架构上保持高度解耦的模块化设计,但底层数据流是纯正的端到端逻辑 [22] - **核心特性1 - 框架原生(模块化)**:系统拆分为视觉编码、LLM认知规划、动作专家三个可自由组合的模块,支持独立升级,但训练时形成整体 [31][33] - **核心特性2 - 框架原生(操作与导航统一)**:在一个框架下实现了视觉-语言-动作(VLA)与视觉-语言-导航(VLN)的统一,为“全身控制”奠定基础 [35][37] - **核心特性3 - 数据原生**:支持多模态互联网数据与具身数据的混合训练,让模型同时具备通用语义理解能力和可落地的操作技能 [39] - **核心特性4 - 训练原生(全流程标准化)**:建立了从数据采集、训练管线到仿真评测的标准化全流程,推出Dexdata统一数据格式,并深度适配多种主流仿真器 [45] - **核心特性5 - 训练原生(模仿学习与强化学习统一)**:通过统一框架打通从VLA策略初始化到强化学习后训练的闭环,集成了SimpleVLA-RL工具并与RLinf深度合作 [47] 核心模型DM0 - **定位与性能**:DM0是全球首个具身原生大模型,在RoboChallenge真机评测中获得单任务与多任务双项第一,位居全球榜单第一 [57] - **关键参数**:采用2.4B参数的轻量化设计,支持三视角728×728高分辨率输入,跨8种机型泛化,推理延迟约60ms,单机成功率达62.0% [57][58] - **技术特点**:引入了“空间推理思维链”机制,将环境感知、任务理解、运动规划与精细执行串联成闭环 [59] - **模型架构**:由一个VLM主干和一个基于流匹配(Flow Matching)的动作专家组成 [61] 量产工作流DFOL - **核心价值**:通过“硬件通用+模型智能”的模式,打破非标自动化与人工的边界,实现具身应用的批量落地 [62] - **关键创新**:构建了完整的数据回流机制,形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环,新任务可在两天内达到量产标准 [63][65] - **商业验证**:构建了评估落地的三大硬性指标:成功率、动作质量与节拍,作为商业价值的“铁三角” [66] 生态合作与开源战略 - **战略合作**:原力灵机宣布与由清华大学、无问芯穹支持的强化学习框架RLinf达成深度战略合作,双方分工明确,实现研发效率最大化 [68][69] - **融合计划**:公布了“Dexbotic & RLinf融合研发计划”,预计2024年5月支持大规模真机强化学习,6月发布深度耦合的通用具身框架 [69] - **开源生态**:坚定选择开源路径以汇聚行业力量,Dexbotic已汇聚包括清华大学、北京大学、普林斯顿大学、帝国理工学院、腾讯、通义千问等在内的全球化社区 [68][71] 未来展望与行业趋势 - **技术演进**:强调触觉、六维力等多模态传感信息深度融合的重要性,并计划开发包含听觉与语音交互的全模态模型 [74] - **发展愿景**:未来的机器人应像“灵巧的动物”一样,具备感知、理解空间和直觉反应的能力 [75] - **迭代速度**:具身智能发展正在显著加速,从Dexbotic 1.0到2.0仅三个多月,行业迭代速度几乎每周都有新发布 [75] - **现实预期**:对具身智能的近期期待是成为一个外形无威胁、能处理倒茶、擦桌子、聊天等简单事务的生活助手 [75]