Workflow
DM0
icon
搜索文档
具身智能如何抵达 “ChatGPT时刻”?智源院长、清华教授和3位创始人聊了聊
36氪· 2026-02-13 18:50
文章核心观点 - 具身智能行业尚未迎来其“ChatGPT时刻”,业内对此刻的定义存在非共识,普遍认为其实现比大语言模型更困难,需在场景、任务、操作物体等多维度实现泛化 [1][9][10] - 当前行业共识是优先在垂直场景实现商业化闭环,积累真机数据以驱动模型迭代,而非追求广泛的泛化能力 [2][3][6] - 中国在具身智能的产业链、供应链及迭代速度上相比美国具有显著优势,但行业整体仍处早期发展阶段 [6][7][8][12] 行业现状与挑战 - 技术路线仍处发展中,主流包括分模块式(VLM+控制)、端到端VLA以及世界模型等,但均未取得彻底突破 [5] - 硬件面临连续稳定工作、安全性、电池续航等多重挑战,真机部署后与大规模应用仍有较大差距 [5] - 商业化落地链条更长,涉及整机、供应链、真机数据、线下交付等多个环节,不似大语言模型“模型即产品” [2][11] - 行业缺乏统一、基于物理世界真机的大规模评测标准,现有Benchmark规模小且可能无法反映真实能力 [13] 发展路径与策略 - 优先在限定场景实现任务闭环,并确保商业模式的ROI(投资回报率)可行,使具身智能从“玩具”变为“有用工具” [2][12] - 通过“VLA+强化学习”逐个场景解决,在真机运行中积累数据形成闭环,再解决泛化问题 [6] - 建立高频、基于真机的统一评测标准(如RoboChallenge)对行业进步至关重要,能提供公允的迭代反馈环境 [13][15][17] - 需加强学术界与产业界的联动,共同推动技术发展和标准制定 [7][17] 中美竞争格局 - 美国在模型、数据等基础层面起步更早,有一定先发优势 [6] - 中国在制造业、完整产业链及供应链方面优势明显,硬件迭代和维修周期比美国快5到10倍,成本低5到10倍 [7][8][12] - 中国在具身智能领域的投入强度已超过美国,结合应用开放和产学研联动,可能实现更快突破 [7] - 行业整体仍处早期,尚未分出明显优劣 [8] 公司动态与案例(原力灵机) - 原力灵机成立于2025年3月,核心团队来自旷视科技,成立不到一年累计融资近10亿元,股东包括阿里巴巴、蔚来资本、联想创投等 [3] - 公司选择先联合HuggingFace推出真机评测Benchmark“RoboChallenge”,再发布自家模型,旨在为行业建立统一评测标尺 [3][13] - 2026年2月10日,公司发布首个模型DM0,以24亿参数量在RoboChallenge评测中排名榜首 [3] - 公司致力于开发具身框架Dexbotic等基础设施,并强调其参与评测的模型代码已彻底开源,可供验证 [21] 2026年行业展望与预测 - 2026年被普遍认为是具身智能应用闭环和爆发的一年,关键指标可参考开源模型数量的增长 [12] - 期待在生产力端看到明确的增长路径,并在单一场景实现上千台甚至上万台机器人的持续规模化运行 [24][25] - 期待在硬件、数据、模型输出等标准制定上取得突破,以解决当前生态碎片化问题 [23] - 期待形成“云-边-端”协同的体系,并构建适配机器人与人类共生的新型基础设施 [22]
对话原力灵机周而进:模型2.4B就够用,关键是“具身原生”;能闭环才是最高效方法
量子位· 2026-02-13 13:42
公司及产品发布 - 具身智能创企原力灵机推出了其首个具身原生大模型产品DM0,参数量仅为24亿(2.4B)[5] - 同时发布的还有开源具身原生框架Dexbotic 2.0,以及解锁具身应用量产的工作流DFOL,共同构成“具身软件三件套”[8] - 在RoboChallenge大规模真机评测中,DM0取得了单任务和多任务双料第一,综合得分72.25,成功率为62.00%[31][32] 技术路线与核心特点 - 公司追求“具身原生”路线,强调从数据采集、推理到控制都应源自物理世界反馈,而非数字世界的派生模态[21] - DM0模型从底层将感知、推理、控制整合为闭环,并通过空间推理思维链内生出具身智能[23] - 模型训练从零开始,融合了互联网、智能驾驶和具身多传感数据,旨在让模型从初始阶段就理解物理世界[27][28][40][42] - 模型采用多源、多任务、多机型训练,目前使用了8种不同本体的机器人数据,以学习通用操作逻辑而非特定机器参数[25][55][56] - 模型能够实时处理三视角的728x728画面,推理延迟仅60毫秒,并可通过强化学习在真机上试错进化[4] 数据策略 - 训练数据主要来自三个来源:互联网数据、智能辅助驾驶数据和具身智能数据,三者角色不同,混合比例根据实验动态调整[62][66][68] - 数据采集遵循“全身全时全域”原则:“全身”指包含底盘移动、躯干协调及所有传感器反馈;“全时”强调记录从意图产生到动作执行及修正的连续因果链;“全域”是未来在空间场景覆盖上的规划[82][83][85][88] - 数据采集策略是“熵在哪里,数据就投向哪里”,针对模型表现不佳的高不确定性任务进行针对性数据补充,实现以需定采的反馈闭环[72][75][76] - 在物理规则确定的低熵场景,通过算力生成仿真数据;在物理或语义模糊的高熵场景,则依赖真机采集真实交互数据[78][79][80] 模型能力与效果 - DM0的核心设计引入了空间推理思维链,这是一种三维物理世界的推演能力,能将视觉特征转化为精确的空间坐标和轨迹,以应对如“收拾桌面”等模糊指令[104][105][106][107] - 结合高分辨率输入,空间推理思维链能让模型处理毫米级精度的任务,识别并执行微小的位置差异[112][113] - 模型设计中借鉴了世界模型的范式,将其视为一种模型内的世界理解方式,用于在不执行动作的前提下推理动作后果,以支持决策和规划[158][159][162] 应用场景与商业化 - 公司选择物流场景作为首要落地切入点,因其场景明确、具备高度可复制性,且能带来规模化数据回流[125][147][150] - 在物流场景中,公司专注于物料分拣等任务,其复杂性体现在需要处理柔性/刚性混杂、随意摆放的物体,并实现精细操作[127] - 公司认为精细动作是真正的挑战,其前提是精细感知,因此模型设计非常看重高分辨率输入下的稳定性[131][135][136] - 公司的商业化路线图是:从物流场景开始,先做专项能力产品进入仓储环境,然后逐步推向ToB靠近ToC的场景(如门店导购),最终在技术、成本、安全性成熟后走向家庭场景[154][155][156] 团队背景 - 公司核心团队由前旷视成员组成,包括合伙人周而进(负责大模型)、范浩强、汪天才,以及担任CEO的前旷视联合创始人唐文斌[16][17][177] - 周而进是信息学竞赛金牌选手,拥有深厚的AI背景,早在2013年就以实习生身份在ICCV比赛中获得冠军[12][14] 行业观点与公司理念 - 公司认为当前行业主流方案是“VLM+Action Head”思路,即大模型负责识别推理,动作头负责执行[18][19] - 公司强调机器人必须尽早实现7×24小时真实环境运行,只有这样才能暴露工程问题、获得真实数据回流,形成数据飞轮[115][116][117][121] - 公司对具身智能的终极展望是机器人能够拥有广泛的社会身份,例如具备独立的支付和结算能力,成为社会化的接口[168][170][172]
雷军宣布初代小米SU7停产;传百度秘密启动“O计划”
21世纪经济报道· 2026-02-11 10:26
巨头风向标 - 小米汽车宣布第一代SU7正式停产,累计交付量接近**37万辆**,公司目前暂无进入美国市场的计划 [2] - 百度据传秘密启动与百度APP相关的“O计划”,其文心助手月活用户数已突破**2亿**,并以**5亿**红包入局春节AI营销 [3] - 智谱股价连续两日强势领涨,盘中一度高见**344港元**,较其**116.2港元**的发行价累计涨幅近**200%**,市场猜测其或将发布新一代大模型GLM-5 [4] - 字节跳动对视频生成模型Seedance2.0进行紧急优化,内测期间暂不支持输入真人图片或视频作为主体参考 [5] - 追觅科技创始人俞浩在社交媒体公开邀请华为余承东加入其公司 [6] - 阿里巴巴推出新一代图像生成基础模型Qwen-Image-2.0,开发者可通过API邀测或QwenChat免费体验 [7] - 字节跳动上线图像生成模型Seedream5.0 Preview,在旗下多款应用开启灰度测试或限时免费体验 [8][9] - 支付宝全新上线Robotaxi打车小程序,聚合小马智行等服务商,运营区域已覆盖广州、东莞、北京、武汉、深圳五个城市的部分地区 [10] 最芯见闻 - 本田汽车公布第三季度经营利润为**1533.6亿日元**,净利润为**1536.1亿日元**,销售净额为**5.34万亿日元**,均超预期,并已制定方案以防芯片供应短缺问题再次发生 [11] - 摩尔线程开源TileLang-MUSA项目,旨在降低开发门槛,为国产算力平台提供更高效的AI与高性能计算开发体验 [12] 上市资本流 - 具身智能企业“穹彻智能”完成**数亿元**A轮融资,由C资本领投,融资将用于大模型研发迭代及发布智慧药房解决方案 [13] - 机器人公司“大晓机器人”完成天使轮融资,由蚂蚁集团领投,商汤国香资本等老股东持续增资 [14] 潮新品 - 原力灵机发布全球首个具身原生大模型DM0(**2.4B**参数)、原生开发框架Dexbotic 2.0及具身原生应用量产工作流DFOL [15] - 腾讯混元开源面向消费级硬件的“极小”模型HY-1.8B-2Bit,通过2Bit量化技术,等效参数量约为**0.3B**,实际存储占用仅约**600MB** [16]
「具身原生」元年!专访原力灵机汪天才,解析具身智能的「PyTorch时刻」
机器之心· 2026-02-10 16:52
编辑|Panda 在数字世界里,AI 智能体正通过 MoltBook 这样社交网络进行语义协商并协同进化,而在物理世界中,具身智能也迎来了一次里程碑式的进展。 在原力灵机的实验室里,一台由 Hugging Face 开源的、3D 打印出来的 SO-101 机器臂正灵巧地将外形各异的物品放入指定的盒子中。这个动作看似简单,实则包 含了极高频的视觉反馈、力度感知以及对复杂物理环境的 直觉 判断。 实际上,这种从「计算」到「直觉」的跨越,并非源于针对这个特定硬件的繁琐调优,而是受益于一套标准化的底层基建。 在 2 月 10 日的技术开发日上,原力灵机正式发布了 开源具 身原 生框架 Dexbotic 2.0,并宣布了其与清华大学和无问芯穹支持的强化学习框架 RLinf 的战略合作 原力灵机合伙人汪天才将 Dexbotic 2.0 与 RLinf 的深度结合定义为 具身智能行业的「PyTorch 时刻」 。正如 PyTorch 通过标准化的张量计算与自动微分机制释放了 深度学习的生产力,Dexbotic 2.0 与 RLinf 的联手试图在具身智能这个碎片化严重的赛道上,建立一套通用的底座和基础设施。 伴随这一框架升 ...
全球首个具身原生大模型DM0发布,联合阶跃星辰训练
新浪财经· 2026-02-10 14:44
公司产品发布 - 原力灵机于2月10日在其技术开放日上发布了全球首个具身原生大模型DM0 [1] - DM0是从0开始训练的具身原生大模型,由原力灵机联合阶跃星辰共同训练 [1] - 该模型深度融合多模态互联网信息,并涵盖驾驶行为数据、机器人操作、导航等具身场景特有的多传感数据 [1] 模型技术特点 - DM0在预训练阶段系统混合了抓取、导航、全身控制三类核心任务 [1] - 模型训练覆盖了8种差异显著的机型,从而获得了强大的跨机型泛化与迁移能力 [1] 模型性能表现 - 在RoboChallage真机评测中,DM0获得了单任务与多任务双项第一 [1] - 目前DM0在RoboChallage榜单上位居全球第一 [1]