“机器人一次性卖完太亏!”真机智能刘智勇:今年中国本体厂商将大淘汰,拼的是世界模型?
AI前线·2026-01-10 13:57

文章核心观点 - 视觉语言导航技术范式转变是具身智能领域的关键进展,其零样本泛化能力大幅降低了部署成本,为特定场景的初步普及奠定了基础 [4][5] - 世界模型是解决数据瓶颈和提升机器人长程规划、动态适应能力的关键共识,其因果推理能力的突破被视为未来的技术决胜点 [6][7][16] - 行业预计到2026年将发生整合,中国本体机器人公司可能收缩至5到8家,竞争核心在于单一场景实现不依赖大量售后的净利润,并形成数据飞轮 [2][17] - 具身智能大规模落地仍面临高质量数据稀缺、硬件性能制约以及感知决策延迟等挑战 [9][11][12] - 未来的商业模式创新可能围绕“整机销售+每年服务费”的组合或按单收费展开,以改善现金流并降低用户一次性支付压力 [2][15] 技术进展与范式转变 - 导航范式转变:技术路线从以SLAM为核心转向基于视觉语言导航的端到端统一范式,代表性工作如UniNavid、ETPNav、FSR-VLN为机器人门到门配送带来可能性 [4][8] - 核心优势:VLN范式结合语言和视觉实现语义理解,能应对非静态环境,不再依赖预先建图和高规格激光雷达,大幅优化了成本与效率 [4][5][8] - 当前瓶颈:VLN技术尚未达到极高的导航成功率,且面临感知决策延迟问题,需在端侧做好部署以匹配长程规划和行动频率 [4][12] 世界模型的作用与潜力 - 行业共识:世界模型被视为解决数据问题的共识,能模拟预测未来状态、预测动态物体轨迹并弥补数据的corner case [6][7] - 现阶段价值:提升机器人全局规划能力、增强动态环境下的行动安全性、生成数据以减少泛化鸿沟 [7] - 未来突破:世界模型的因果推理能力若取得突破,将能很好解决机器人的安全性与行为推理安全问题 [7][16] - 现存问题:世界模型目前主要是黑盒,而非白盒可微,且在开门等任务上可能缺少精准几何信息 [7][12] 数据瓶颈与解决方案 - 数据挑战:高质量物理交互数据稀缺,现有数据集场景覆盖不足,且VLN数据采集与标注成本高昂,3D数据标注成本比2D图像高出一个量级 [9] - 解决方案:采用多种数据方案,包括采集真实RGBD视频流与人工标注、利用仿真器批量生成视觉语言轨迹三元组、通过改写人类标注数据生成新样本,以及探索离线轨迹挖掘 [10] 硬件现状与制约 - 能力提升:灵巧手、一体化关节及触觉传感器使机器人具备开门、按电梯的能力,实现了从轮式机器人到人形机器人的巨大转变 [11] - 主要制约:需要高分辨率柔性触觉皮肤以提高操作成功率;硬件需应对成千上万种门的泛化场景;电机、执行器等部件的耐疲劳性与反脆弱性不足,在反复操作场景中脆弱性可能被放大100倍 [11][12] 公司战略与落地应用 - 战略重点:公司分设不同技术路线,其中聚焦VLN与人形机器人的分支,重点方向是实现无需预先建图的零样本泛化门到门配送,以及通过全身运动控制解决开门问题 [13] - 成本目标:过去部署成本约占整个机器人售价成本的38%,新技术旨在消除此成本 [13] - 应用场景:结合无需建图的导航与开门能力,目标实现最后五公里的门到门配送,在无GPS信号的室内环境中依靠视觉与语言理解导航 [14] 产业竞争与商业模式 - 行业整合:预计2026年本体厂商将收缩,马太效应明显,中国最终可能只剩5到8家本体机器人公司,但应用场景与上游企业会更多 [2][17] - 竞争维度:从追求单点技术先进性转向比拼整体系统效率 [17] - 盈利关键:核心是在单一场景实现不依赖大量售后成本的净利润,从而形成数据飞轮,推动模型能力提升与跨场景复制 [2][17] - 商业模式创新:“整机销售+每年服务费”的组合模式被认为优于单纯硬件销售,能保证长期收益并解决售后压力;未来也可能出现按单收费模式,例如人形配送机器人每单成本控制在两到三元人民币 [2][15] 未来能力边界突破 - 2026年突破方向:一是机器人在非结构化场景中实现稳定作业,需具备社交行为与自主导航能力;二是突破莫拉维克悖论,使机器人能胜任人类觉得简单的事情 [16] - 技术决胜点:世界模型的因果推理能力被视为关键的技术决胜点 [16] - 中外优势对比:国际公司在大模型与基础模型技术上更先进,而中国企业拥有供应链成本优势 [17]

“机器人一次性卖完太亏!”真机智能刘智勇:今年中国本体厂商将大淘汰,拼的是世界模型? - Reportify