Workflow
真机派
icon
搜索文档
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]