基于视频生成世界模型的机器人系统
搜索文档
直击进博会丨具身智能的“ChatGPT时刻”何时到来?宇树王兴兴提了几个关键问题
新华财经· 2025-11-05 18:31
行业核心观点 - 人形机器人行业当前最关键的制约因素是具身智能大模型的进展速度,其发展被认为类似于ChatGPT发布前的1-3年[1][5] - 行业发展的一个重要里程碑目标是实现“在80%的陌生场景中完成80%任务”的能力,这将是该领域的“ChatGPT时刻”[5][6][7] - 尽管深度强化学习的全身运控在2024年进步明显,但“端到端能干活”的具身大模型技术进步相对较慢[5] 关键技术挑战:模型与数据 - 当前智能体模型面临的核心挑战是泛化能力不足,在特定场景下成功率可达100%,但更换操作物体或环境后成功率会骤降至70%甚至更低[8][9] - 模型架构需要更具突破性的创新,现有多种结构尝试后仍无法满足泛化需求[8] - 数据层面面临采集难度大和质量评估标准不完善的双重挑战,并非盲目追求数据量越多越好[8] 主流技术路径与瓶颈 - 行业主流训练路径包括VLA+RL(视觉-语言-动作结合的强化学习)和基于视频生成的世界模型[8] - 视频生成世界模型存在视觉生成与物理执行的对齐误差问题,模型能生成高质量场景视频但无法让机器人按此逻辑精准行动[9] - 当模型同时承担几十种任务时性能会下降,显示出现有系统的多任务处理能力有限[9]