论坛背景与参与者 - 2025年世界人工智能大会期间上海期智研究院举办人工智能交叉科学论坛 聚焦具身智能领域[1] - 论坛聚集具身智能领域"伯克利四子":星动纪元创始人陈建宇 千寻智能联合创始人高阳 星海图联合创始人许华哲 蚂蚁集团强化学习实验室首席科学家吴翼[1] - 四位学者均担任上海期智研究院首席研究员 该研究院由图灵奖得主姚期智于2020年创立并担任院长[2] 具身智能发展三阶段 - 第一阶段:机器人进入生产力系统 生产手机汽车等产品 贡献超过目前一半GDP[5] - 第二阶段:机器人成为最大终端 具备自我制造能力[6] - 第三阶段:机器人帮助人类拓展能力边界 如火星移民 最终布满整个宇宙[7] 数据获取瓶颈与解决方案 - 具身智能训练数据需求达10^9小时级别 远超遥操作采集的1万小时数据量[11] - 数据金字塔分为三层:塔尖为遥操作数据 中间层为人类第一视角数据(通过VR/智能眼镜采集) 底层为互联网视频数据(YouTube视频总时长约10^11小时)[11] - 仿真数据存在局限性 无法生成智能体行为数据 只能提供被动物理交互数据[11] - 人形机器人设计(如星动L7高1.7米)可更好收集人类多样性数据 规模化将推动成本下降[12] 模型构建与算法创新 - 当前VLA模型存在纯克隆问题 缺乏举一反三能力且难以超越人类表现[12] - 需结合世界模型(形成物理世界认知)和强化学习(模仿学习+自我训练调整)[12][13] - 提出PID模型和Video Addiction Policy 融合VLM理解与世界模型生成能力 利用互联网视频数据提升泛化性[13][14] - 千寻智能提出TactileVLA概念 在视觉基础上加入触觉模态 提升拿取物体和擦黑板等任务的判断准确性[16][17] - 开发OneTwoVLA模型 结合System1(直觉快速)和System2(系统慢速)思考模式 实现任务层级分解[18][19] 智能体架构与多智能体协作 - 具身智能体需具备三种能力:规划 记忆调整 使用工具[24] - 采用Function Call机制 通过逻辑推理 代码编写 代码执行完成物理任务[24] - 实现Multi-Agent系统 多个机器狗可组成足球队进行竞争合作 人机之间也可实现交互[26] - 蚂蚁集团推出AReaL开源框架 支持智能体开发[28] 数据质量与规模化挑战 - 具身智能在小规模数据下依赖背诵 缺乏泛化能力[31] - 当前人类数据和仿真数据存在与现实世界冲突问题 难以学习本质规律[31] - 提出具身智能数据Scaling坐标:横轴Path Sampling(同一场景不同动作路径) 纵轴World Sampling(不同场景相同任务)[34] - 建议先沿单一轴突破 再拓展另一轴 避免同时推进导致数据需求过大[34]
“伯克利四子”罕见同台,我们整理了WAIC最豪华具身论坛
36氪·2025-08-04 12:52