Real2SIM2Real
搜索文档
在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
机器之心· 2025-09-16 16:37
文章核心观点 - 具身智能被视为AI发展的下一站,其核心是实现从“数字认知”到“物理世界”真实生产力的转化,当前技术已将其推至产业变革的商业化临界点 [2] - 行业发展的关键挑战在于如何通过颠覆性创新赋予具身智能真正的泛化行动能力,并跨越从“技术可行”到“商业成功”的鸿沟 [2] - 实现上述目标的核心突破口在于解决数据瓶颈,训练场被多位专家视为AI时代的新型“数据工厂”,是推动产业落地的关键基础设施 [6][8][11][18] 主题演讲要点总结 孙富春:训练场与产业落地 - 具身智能的定义已从赋予机器物理身体演变为构建沉浸式感知过程,融入物理学各种视觉、触觉感知可大幅提升鲁棒性和泛化能力 [6] - 数据问题是制约行业发展的核心挑战,训练场具有降本增效、安全模拟、标准统一等核心价值,但存在分散化、重复化等“各自为战”现象,亟需制定标准以推动协同发展 [6][7] - 具身智能是结合本体、数据知识、场景和进化架构的综合体,需依赖沉浸式训练场与多模态数据采集,并结合大模型泛化推理,通过持续学习进化迈向真正智能 [7] 江磊:构建数据飞轮 - 新研发范式为“AI + 机器人”,流程是开发机器人→训练场收集数据→构建具身大模型→推向应用智能体,训练场在此范式中扮演关键角色 [10][11] - 行业技术路径尚未收敛,主要玩家涉及智能驾驶、机械臂、腿足式机器人及芯片研发,但无论何种路径均需依赖大数据集,训练场是必不可少的基础设施和关键技术 [11] - 国地共建人形机器人创新中心正聚焦数据采集与训练场建设,旨在打造低代码、可开发、可发布的具身智能领域MCP,以适用于所有机器人 [11] 许华哲:开启下一站 - 星海图发布的全身智能VLA模型G0采用100%开放真实世界数据,通过“慢思考+快执行”协同及预训练,可实现端到端模型泛化操作,并具备动作自动修正能力 [14] - 行业数据主要包括真实数据、仿真数据和互联网数据,真实数据质量好但昂贵,仿真和互联网数据便宜易得但存在Gap,即使真实数据本身也可能存在Real2real的Gap,影响模型质量 [14] - 公司通过R1 Lite平台在50个开放世界场景进行数据采集和标注,并将数据集开源,未来模型G0也将开源,旨在与业界共建生态,探索具身智能Scaling Law [14][15] 张直政:仿真合成数据驱动 - 行业重点问题是训练数据来源,真机遥操作费时费力且数据复用性有限,而实现跨行业、跨任务泛化可能需要上万亿条数据,全部采用真实数据不可行 [18] - 银河通用的技术路线分两阶段:第一阶段用大规模仿真合成数据进行预训练(“义务教育”),提供通用知识;第二阶段用少量真实数据学习技能应用(“职业教育”),强化专业知识 [18] - 公司围绕该训练范式构建了全栈团队和能力,以确保基座模型稳定性与硬件一致性 [19] 金国强:产业机遇 - 人形机器人蕴藏着下一个万亿美元的产业变革机遇 [20] 苏洋:灵巧手泛化之路 - 好的灵巧手关键在于“用得上、买得到、买得起、不怕用”,实现多技能泛化以在各种场景广泛应用,价格是影响泛化的重要因素 [24] - 当前最贵的成本是数据,合成数据因真机数据太贵而被广泛使用,但其迁移到真机的胜率很低,受限于物理约束如标准、电机、结构、磨损等差异 [24] - 降低开发成本和合成数据使用难度的关键是扩大机器人应用规模,当有100万个真实人形机器人或灵巧手运行时,每日上传数据量将超过2025年全球全年采集数据 [26] 思辨环节要点总结 技术路线与数据关键性 - 具身智能发展处于早期,技术路线未收敛,当前热门路径包括完全端到端的VLA路径(真实数据+大模型)以及仿真到现实的迁移路径 [30] - 数据是技术路线划分的关键维度(如真机、仿真、视频数据),模型侧路线包括端到端、分层及世界模型等,上海AI Lab采用Real2SIM2Real数据路线并关注端到端模型 [31][32] 形态终局与发展路径 - 当AI发展到一定程度,本体形态重要性下降,数据采集和模型训练方式对本体不敏感,人形机器人不一定是唯一载体 [33][35] - 当前技术不成熟,正从专用走向通用螺旋发展,协作臂或轮式双臂机器人是有限场景下实现局部通用的良好载体 [35] - 视角差异导致形态看法不同:科研视角充满想象(如火星改造),人形是理想形态;创业公司则需“戴着镣铐跳舞”,在资源有限下探索实际应用场景,需执行多项任务才能体现成本效益 [35] 世界模型与落地时间 - 世界模型研究意义重大,但距离具体场景实际应用还需很长时间打磨 [36][37] - 具身智能进入日常生活是渐进过程,达到保姆或管家级别可能还需5到10年,未来2-3年仍处早期,技术路线未完全收敛,未来4-5年将是人类降低期待与机器人技术打磨的双向修正过程 [38] 圆桌对话要点总结 超级助手设想 - 工业场景中,“超级助手”是能听懂自然语言、直接驱动机器行动的智能体,如同“工业现场指挥家”,为现有自动化叠加AI大脑 [43] - “超级助手”可兼具工具人和生活伙伴角色,解决家务或情感交互问题,理想状态是能进行自然、平等、主动交互的伙伴 [43] - 从投资终局看,“超级助手”具有巨大市场潜力,未来企业内除老板外所有职位都可能由机器人代替 [43] - “超级助手”需具备高度泛化能力、良好交互体验、个性化服务、自我学习能力,并确保安全可靠 [44] 困难挑战与应对策略 - 工业场景挑战包括硬件本体可靠性、精准度、一致性不成熟;模型泛化性和部署便捷性存在问题;执行具体任务时面临诸多工程化问题需细化解决 [45] - 应对策略是先垂直再通用、先落地再泛化,关注模型和数据闭环;技术未成熟时可先突破局部专用场景,降低用户期待,迎合需求 [45][46] - 行业仍处早期解决单点问题阶段,单点问题不解决则泛化无价值,需进行从基础模型到Agent能力的突破 [46] - 软件上模型泛化性和数据是主要挑战;硬件上需解决“看得清、摸得明”的问题;工业落地挑战还涉及数据治理、软硬件结合及行业know-how [46][47] 产业链协同期待 - 行业缺少具通识物理智能的基座模型,若有此类模型结合本体特点采集或生成仿真数据,可将模型准确率从80%-90%提升至99.9%以上 [48] - 合作原则不限于技术,需融合芯片、模型、音视频交互、云服务等多领域,共同开辟新品类实现更大价值 [49] - 期待行业在数据集标准化、数据共享、模型开源等方面合作,共同加速解决动作基础模型、空间智能、末端灵巧控制等重要问题 [49] - 短期生态融合不显眼,多聚焦特定领域应用;长期需更多伙伴参与推动生态向更广泛场景发展 [49]