VLM(多模态大模型)
搜索文档
机器人何时能迎来自己的“DeepSeek时刻”?
虎嗅APP· 2025-10-24 17:53
文章核心观点 - 文章通过对话北京人形机器人创新中心CTO唐剑,探讨了具身智能领域的发展现状、技术挑战及未来方向,核心聚焦于“世界模型”作为实现机器人智能涌现的关键技术路径 [5][6][15] - 世界模型被视为具身智能的“DeepSeek时刻”,其通过引入奖励机制和双模驱动架构,在有限算力下实现性能超越,并坚持开源以推动行业演进 [16][20][27] - 公司认为世界模型是提升机器人泛化能力、实现其在开放世界中可靠行动的必选项,而非可选技术路线 [21][24][31] 从AI控制到具身智能的起点 - 唐剑的研究方向从传统的基于数学建模的系统控制转向“经验驱动”的控制方式,后者通过历史数据和经验学习控制规律,适用于复杂系统 [9] - 经验驱动控制在自动驾驶领域的应用体现为“端到端控制”,如特斯拉FSD 12.0版本,将感知、规划、控制三模块合并,提升复杂场景下的泛化能力 [11] - 具身智能被视为比自动驾驶更高维度的挑战,因其自由度更高、环境更开放、任务类型更繁杂,对理解能力和泛化能力要求极高 [12] 世界模型与具身智能的“DeepSeek时刻” - 公司将世界模型类比为具身智能的“DeepSeek时刻”,基于三点相似性:在有限资源下超越SOTA性能、训练范式有突破(如奖励机制)、坚持开源 [16] - 公司世界模型采用“双模驱动”结构,世界模型与VLM相互促进,VLM为世界模型提供奖励反馈,确保生成内容符合物理规律和因果一致性 [16][17] - 公司世界模型同样引入GRPO机制进行微调,并计划开源新的VLM模型Pelican,形成更紧密的认知与物理交互闭环 [19][20] 世界模型的本质与行业分歧 - 世界模型的核心是帮助机器人理解世界,其不仅是“像人”,更要在认知上接近人,能理解、预判并在物理世界中行动 [21] - 行业对世界模型尚无统一定义,公司区分了面向娱乐的视频生成模型和面向机器人操作的模型,后者强调严格的物理一致性与时空一致性 [24][26][27] - 世界模型被视为具身智能的必选项,而非类似自动驾驶激光雷达的技术路线选择分歧,因为它是实现机器人开放世界行动可靠性的基础 [20][21] 世界模型的三种用途与进化方向 - 世界模型主要用途包括:与机器人大脑形成闭环互相促进、直接生成机器人训练所需的轨迹数据、作为机器人操作模型的一部分具备物理理解与控制能力 [25] - 公司当前世界模型基于视频生成的DiT架构,但未来可能采用全新架构,以更好地注入物理约束,如牛顿定律、能量守恒等 [27][28] - 世界模型的应用处于早期阶段,其核心目标是提高机器人的泛化能力,以支持从工业场景向更复杂的商业和家庭生活场景拓展 [28][29][31] 数据、算力与智能涌现的挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”,因其数据主要为轨迹数据,数据量级、采集难度和成本远高于语言模型,进化更慢 [14] - 目前无人能准确给出具身智能的“Scaling Law”,即智能能力随数据、算力、算法增长的规律,其是否存在及曲线形态均为未知 [20] - 公司使用“百卡级”算力训练出2B、7B、14B规模的世界模型,并在多项主要指标上超过SOTA模型,如英伟达的Cosmos Predict 2 [16]
独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“DeepSeek时刻”
虎嗅· 2025-10-23 15:06
文章核心观点 - 世界模型被视为推动具身智能发展的关键路径,有望带来类似DeepSeek的低成本、高性能突破 [1][9] - 具身智能的复杂度远超自动驾驶,是智能系统的“天花板级”挑战,其发展更依赖长期数据积累而非短期突破 [7][8] - 公司通过“双模驱动”架构和引入奖励机制,在有限算力下开发出性能超越SOTA的世界模型 [9][10][11] 技术理念与方法 - 倡导“经验驱动”的控制方式,通过历史数据学习控制规律,而非依赖精确的数学建模 [3][4] - 以游泳运动员训练类比AI学习过程,强调通过反复实践积累经验而非先掌握理论 [5] - 在自动驾驶领域验证了端到端控制架构的有效性,并将其思路延伸至具身智能 [6] 世界模型的技术特点 - 采用世界模型与多模态大模型相互促进的“双模驱动”结构 [9][11] - 引入奖励机制和基于强化学习的微调,形成自我优化闭环 [9][10][11] - 使用GRPO算法微调多模态大模型,实现认知与物理交互的紧密闭环 [11][12] - 当前模型基于DiT架构,但未来可能迭代全新架构以更好捕捉物理规律 [19][20] 世界模型的应用价值 - 主要用途包括:与机器人大脑形成闭环、直接生成训练数据、作为机器人操作模型的一部分 [17] - 核心目标是提高机器人在开放环境中的泛化能力,这对商业和家庭场景至关重要 [21][22] - 通过蒙特卡洛树搜索等技术,让机器人在虚拟世界中模拟多种方案并选择最优路径 [11][17] 行业现状与挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”,数据量级、采集难度和成本远高于语言模型 [8][9] - 行业目前缺乏明确的Scaling Law,智能能力随数据、算力增长的规律未知 [13] - 世界模型在物理规律和时空一致性方面要求远高于视频生成模型 [18][19] - 具身智能落地将经历工业场景、商业场景、家庭生活场景三个阶段 [21]