具身智能如何抵达 “ChatGPT时刻”?智源院长、清华教授和3位创始人聊了聊
36氪·2026-02-13 18:50

文章核心观点 - 具身智能行业尚未迎来其“ChatGPT时刻”,业内对此刻的定义存在非共识,普遍认为其实现比大语言模型更困难,需在场景、任务、操作物体等多维度实现泛化 [1][9][10] - 当前行业共识是优先在垂直场景实现商业化闭环,积累真机数据以驱动模型迭代,而非追求广泛的泛化能力 [2][3][6] - 中国在具身智能的产业链、供应链及迭代速度上相比美国具有显著优势,但行业整体仍处早期发展阶段 [6][7][8][12] 行业现状与挑战 - 技术路线仍处发展中,主流包括分模块式(VLM+控制)、端到端VLA以及世界模型等,但均未取得彻底突破 [5] - 硬件面临连续稳定工作、安全性、电池续航等多重挑战,真机部署后与大规模应用仍有较大差距 [5] - 商业化落地链条更长,涉及整机、供应链、真机数据、线下交付等多个环节,不似大语言模型“模型即产品” [2][11] - 行业缺乏统一、基于物理世界真机的大规模评测标准,现有Benchmark规模小且可能无法反映真实能力 [13] 发展路径与策略 - 优先在限定场景实现任务闭环,并确保商业模式的ROI(投资回报率)可行,使具身智能从“玩具”变为“有用工具” [2][12] - 通过“VLA+强化学习”逐个场景解决,在真机运行中积累数据形成闭环,再解决泛化问题 [6] - 建立高频、基于真机的统一评测标准(如RoboChallenge)对行业进步至关重要,能提供公允的迭代反馈环境 [13][15][17] - 需加强学术界与产业界的联动,共同推动技术发展和标准制定 [7][17] 中美竞争格局 - 美国在模型、数据等基础层面起步更早,有一定先发优势 [6] - 中国在制造业、完整产业链及供应链方面优势明显,硬件迭代和维修周期比美国快5到10倍,成本低5到10倍 [7][8][12] - 中国在具身智能领域的投入强度已超过美国,结合应用开放和产学研联动,可能实现更快突破 [7] - 行业整体仍处早期,尚未分出明显优劣 [8] 公司动态与案例(原力灵机) - 原力灵机成立于2025年3月,核心团队来自旷视科技,成立不到一年累计融资近10亿元,股东包括阿里巴巴、蔚来资本、联想创投等 [3] - 公司选择先联合HuggingFace推出真机评测Benchmark“RoboChallenge”,再发布自家模型,旨在为行业建立统一评测标尺 [3][13] - 2026年2月10日,公司发布首个模型DM0,以24亿参数量在RoboChallenge评测中排名榜首 [3] - 公司致力于开发具身框架Dexbotic等基础设施,并强调其参与评测的模型代码已彻底开源,可供验证 [21] 2026年行业展望与预测 - 2026年被普遍认为是具身智能应用闭环和爆发的一年,关键指标可参考开源模型数量的增长 [12] - 期待在生产力端看到明确的增长路径,并在单一场景实现上千台甚至上万台机器人的持续规模化运行 [24][25] - 期待在硬件、数据、模型输出等标准制定上取得突破,以解决当前生态碎片化问题 [23] - 期待形成“云-边-端”协同的体系,并构建适配机器人与人类共生的新型基础设施 [22]

具身智能如何抵达 “ChatGPT时刻”?智源院长、清华教授和3位创始人聊了聊 - Reportify