Workflow
world model
icon
搜索文档
机器人浓度最高的一届春晚后,具身智能离走进千家万户还有多远?
AI前线· 2026-03-18 16:33
文章核心观点 - 具身智能作为通往AGI的关键路径,其产业落地仍面临模型泛化性不足、数据采集难、闭环难以实现等深层难题,目前处于技术爬坡与产业磨合期,而非完全被卡住的状态 [4][5][6] - 工业场景的落地逻辑与通用场景(ToC)存在本质差异,无需过度追求通用性(AGI),而应聚焦于特定高价值工位,实现稳定、可靠、高效,这本身足以支撑百亿估值级别的公司 [3][12] - 现阶段技术落地的核心矛盾在于:复杂的物理世界交互要求多模态感知与高精度控制,但算法、数据、系统集成等方面均存在瓶颈;有效的路径可能是结合模块化(Modular)设计、智能体(Agent)架构、世界模型(World Model)以及高质量数据工程,而非单纯依赖端到端模型 [8][9][12][15][29] 技术路径与算法挑战 - **VLA与VA的路径选择**:工业场景高度结构化,流程确定,无需通过自然语言(L)引导,因此仅以视觉为输入的VA模型比视觉-语言-动作模型VLA更适配;语言交互在工业中作用有限且增加计算开销 [8][12] - **模型通用性的再认识**:工业场景不需要追求AGI级别的通用性,核心要求是稳定(不宕机)、可靠(成功率近100%)、高效;通用性可体现在模型架构层面,针对不同任务使用相同架构训练不同模型,形成“模型超市” [12][13] - **端到端模型的局限性**:当前端到端模型难以落地,因为人类高度压缩的指令与完成任务所需的完整信息之间存在巨大缺口;更可行的路径是基于模块化的智能体架构,整合感知、决策、记忆与执行的闭环 [8][9] - **世界模型的作用与形态**:世界模型可作为评估器和奖励来源,为VLA训练提供反馈信号;主流有两类形态,一是在像素空间预测未来帧,二是在隐空间预测特征演化;其对操作任务有正向作用,未来将向多模态集成发展 [20][21][24] - **感知模态的局限与补充**:纯视觉模态存在瓶颈,力觉对于高精度、高安全性操作至关重要;工业落地需按需引入关节力矩、六维力传感、高分辨率触觉等不同层级的力觉模态以突破成功率天花板 [38][40] 数据瓶颈与解决方案 - **数据质量优先**:在机器学习中,保证数据质量是第一位的,模型是第二位的;对采集的机器人轨迹数据进行标准化“消毒”处理,剔除噪声、提升流畅度,可使模型训练精度提升20个百分点 [3][29] - **数据极度稀缺**:具身基础模型可能需要百万小时量级的视频数据,但当前数据远未达到此规模;数据来源主要有三种:真实采集、仿真引擎生成、从视频或世界模型中获取 [26][30] - **生成式数据的潜力与挑战**:规模化最终需依赖视频生成模型或世界模型生成数据,但生成数据缺乏力的标注是关键难点;一种探索方向是将力的梯度(临界变化量)而非绝对大小作为物理标注 [30] - **数据闭环与强化学习**:通过智能体架构可实现数据闭环优化,例如HIL-SERL算法,仅需少量人工示教数据,结合奖励构建强化学习缓冲区进行训练,已在真机可靠性上取得提升 [26] - **先验知识与数据驱动的结合**:将物理规律、常识知识以规则或约束形式注入模型(如通过WBC加MPC),可以降低数据需求、加快模型收敛,实现学习突破上限、规则负责兜底的效果 [32][33] 系统集成与产业落地挑战 - **从实验室到现场的失效原因**:导致“现场失效”的主要技术原因包括网络信号问题(丢包、带宽不足)、感知层受环境变化干扰、决策层因时延或微小误差失准、执行层硬件精度与策略推理不匹配等 [15] - **工业场景的落地价值定位**:在绝大多数场景下,具身方案目前比不过传统工业自动化;其价值在于解决传统自动化难以覆盖的高柔性、长链条任务,或在通用性与高度定制化之间找到平衡点,具备边际成本递减的潜力 [46][47] - **隐形成本与决策成本**:企业落地具身智能最容易低估的是决策成本,因信息不对称、不全面导致错误决策,会杠杆式放大后续人力、资本和代码开发投入,形成高昂代价 [44][45] - **经济账是核心**:ToB市场的成本敏感度极高,例如有头部企业报价400万,而规模仅其十分之一的团队报价200万,工厂最终选择了后者;政府补贴退去后,必须算清经济账才能持续 [7][51] 未来展望与突破方向 - **规模化引爆点的预测**: - 工业场景的“iPhone时刻”可能源于一台具身机器人能在某个工位上持续稳定工作一个月,证明其长期商业落地价值 [51] - 远程操控是另一可行方向,当机器人足够鲁棒、硬件足够便宜、时延基本解决,可实现跨时区人力协同,同步实现商业与数据闭环 [51] - ToB本质是经济账,补贴退去后若经济账算不过工业自动化,则需重新思考 [51] - **未来2-3年的技术突破点**:感知层落地趋势明显,但动作层仍是核心卡点,包括移动性(导航与运动)和操控,对真实物理世界物体交互的探索尚不充分 [49][50] - **对从业者的建议**:工程师不应将技能栈锁定在单点,建议全栈了解从机械臂控制到模型训练部署的整体方案,以建立全局视角和价值判断 [49]
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 13:36
行业格局与公司战略 - 美的集团通过2016年收购库卡机器人实现To B转型 布局四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务[4] - 美的2023年启动人形机器人规划 凭借核心零部件技术积累和完整产品线切入赛道 2024年加速产品开发与应用尝试[4] - 库卡机器人主要服务汽车制造 3C 船舶 飞机制造等行业 在美的灯塔工厂应用广泛[5] - 格灵深瞳作为首家科创板AI计算机视觉上市公司 深耕金融安防领域 近期拓展体育考试训练和AI PC大模型一体机业务[5] - 真格基金重点布局AI与机器人早期项目 已投资月之暗面 Manus Genspark等具身智能企业[6][57] 技术演进路线 - 人形机器人关节数量从传统200+缩减至40个左右 强化学习算法显著降低调试难度[8][9] - 技术路线从液压传动转向电动传动 控制方式从rule-base转向learning-base 中国供应链优势推动成本下降[12] - 双足形态在动态平衡性上具优势 轮式更适合标准化场景 智元创新的轮足折叠设计尝试融合两者优势[13][16][19] - 五指灵巧手在70%场景可被两指夹具替代 但数据采集和复杂操作仍需五指结构[27][28] - 视频模型和world model成为具身智能关键技术 需解决物理世界数字化重建的高成本难题[37][43] 应用场景展望 - 工业场景将率先落地 上汽计划引入500台人形机器人进厂 聚焦搬运 装配等六大核心工序[9][15] - 家庭场景面临安全隐私等挑战 需分阶段从工业→商业→家庭推进 预计5-10年实现普及[13][66][67] - 家电机器人化成为新方向 如智能烤箱通过视觉识别和自动调节实现主动服务[64] - 高人力成本场景优先突破 如美国餐厅后厨等海外市场更具商业化潜力[58][73] 中美竞争态势 - 中国占据全球40%人形机器人专利 机电产业链优势显著 核心部件价格快速下降[69][72] - 美国在AI基础技术领先 中国在场景落地和政策支持方面占优[70][71] - 人才储备呈现"中美华人竞争"格局 中国需突破算力瓶颈并拓展全球化市场[72][73]