Workflow
合成仿真数据
icon
搜索文档
面对具身智能数据瓶颈问题!孙富春、赵明国、王鹤、庞江淼、赵同阳、仉尚航、卢宗青、高阳、唐剑都有怎样的思考?
机器人大讲堂· 2025-06-30 15:22
具身智能数据挑战与解决方案 - 数据被视为具身智能落地的"最后一公里",直接决定智能体从虚拟环境迁移至物理世界的能力[1] - 具身智能需要采集高维动态数据(如力反馈、材质摩擦等),但真实场景数据获取受限于传感器成本、场景多样性和隐私问题[1] - 当前全国最大开源数据集仅百万级别,相比自动驾驶单日上亿条数据相差百倍以上[1] - 物理交互数据难以用语言精准描述,标注工作仍需依赖人工结合动作意图与环境反馈[1] 多模态数据采集与数字物理系统 - 清华大学孙富春团队计划采集200万条轨迹(52TB),远超英伟达现有120万条/32TB规模[2][4] - 主张融合视觉、听觉、触觉等多感官数据,突破传统以视觉为中心的研究模式[2] - 提出构建高精度数字物理系统模拟真实环境,实现虚拟训练到现实迁移的闭环[2] - 采用对抗学习生成多样化数据增强模型泛化能力,实现跨场景策略迁移[4] 合成仿真数据应用 - 银河通用机器人王鹤认为合成数据是破解数据瓶颈最优解[5] - 通过生成可交互的家用物体资产(含抓取标签和轨迹)结合强化学习,构建纯合成数据训练的VLA模型[9] - 该模型在未见环境中直接执行任务的成功率显著高于依赖少量真实数据的模型[9] - 展示VLA模型在零售/物流/工业领域的应用潜力,包括密集货架抓取和复杂导航[11] 互联网视频数据利用 - 北京大学卢宗青提出互联网视频蕴含人类运动信息价值,通过3D姿态估计提取动作序列[12][14] - 现有遥操作和仿真方法存在局限,World Model缺乏动作级别信息[12] - 结合真机数据和仿真器对齐,采用"强化学习物理反馈"调整姿态符合机器人物理约束[14] - 已在姿态生成/动作控制/视频理解方面取得进展,国际竞赛验证方法有效性[16] 智能化与数据来源创新 - 千寻智能高阳指出机器人落地核心在于智能化而非硬件[17][19] - 提出三方面数据来源:互联网视频预训练、遥操作数据微调、物理世界强化学习[21] - 通过分析人类叠毛巾视频迁移学习,实现机器人处理任意状态衣物和陌生环境倒茶[21] - 提出"双十计划":十年内让全球10%人口拥有机器人解放体力劳动[23] 泛化能力与类脑控制 - 清华大学赵明国强调具身智能核心价值在于"举一反三"的泛化能力[24] - 传统基于模型的控制方法(如全身控制)难以应对复杂动态环境[26] - 借鉴生物被动稳定性设计低能耗机器人本体,提出类脑控制框架分层实现快速/中速/慢速反应[28][30] - 展示足球人形机器人路线图,从基础运动到团队协作的六级能力演进[29] 人形机器人商业化路径 - 众擎机器人赵同阳专注核心部件自主研发,实现稳定行走和奔跑[31][33] - 通过亲民价格策略(适合高校和个人)推动行业快速增长[35] - 预测未来机器人将更智能化、人性化并具备自主决策能力[36] 仿真技术与评测体系 - 上海AI实验室庞江淼提出合成数据促进本体/场景泛化,真实数据助力任务转化[37] - 通过仿真生成数据减少真实采集量,实现成本优化和零样本泛化[37] - 强调建立可重复的仿真评测体系,介绍虚实结合技术在动态环境处理优势[39] 开放世界多模态模型 - 北京大学仉尚航提出分层快慢系统框架:大脑模型(推理)与小脑模型(动作执行)协作[42] - 构建具身大脑数据集,通过两阶段训练保持常识推理与机器人核心能力[44] - 开发Hybrid VLA和Fast in Slow模型,实现动作生成与高级任务推理协同[46] - 建立Robobench和Real bench评测基准全面评估模型性能[48] 通用平台开发实践 - 北京机器人创新中心唐剑推出"慧思开物"平台,整合具身大脑(规划)与小脑(控制)[49][51] - 采用蒙特卡洛搜索结合世界模型提升任务规划精准度[53] - 实现自动数据清洗标注,构建高质量数据集支持虚实结合训练[53] - 展示自主导航、操作技能及全身运动控制在多场景应用案例[55]