Workflow
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网·2025-06-20 19:54

核心观点 - 互联网视频数据是唯一可以规模化(scalable)的具身智能发展路径,通过标注人类动作数据训练模型是通向通用人工智能(AGI)的关键[1][6][25] - 当前多模态模型缺乏与世界物理交互的能力,需通过海量人类运动视频数据建立动作与世界的关联[2][19][29] - 公司技术路线与主流VLA/世界模型方案存在本质差异,坚持从人类行为数据预训练构建统一解决方案[5][55][56] 技术路线 - 数据采集:已标注1500万条互联网视频中人类关节动作数据,聚焦全身运动控制与第一人称手部操作[6][28][34] - 模型架构:基于语言模型backbone加入多模态信息,未来可能探索纯视频预训练模型[42][55] - 训练方法:通过人类动作先验知识缩小状态-动作空间搜索范围,避免强化学习的无效遍历[29][30] - 硬件适配:专注人形机器人/灵巧手形态,可向下兼容夹爪/轮式机器人[31][33] 行业竞争分析 - 主流方案缺陷: - 遥操作/真机数据采集成本高且难以复用[33] - 自动驾驶系世界模型仅适用于建图导航,无法预测物理交互结果[45][48] - VLA方案在gripper形态有效但未触及人形机器人本质问题[53][57] - 差异化优势: - 数据规模领先(1500万vs竞品数百条)[28] - 动作级标注精度(20+关节自由度vs物体轨迹分析)[25] - 预训练范式创新(action数据前置学习vs VLM+action head)[55] 公司发展 - 融资情况:获联想之星/星连资本数千万人民币天使轮[9] - 团队规模:5名全职+20名实习生,核心成员具备多年模型研究经验[76][78] - 产品规划: - 第一代模型Being-M0定位验证性产品[73] - 运动控制模型将率先scale up至1.0版本[74] - 第二代模型Beyond系列代表全球领先水平[70] - 商业化节奏: - 2-3年实现技术规模化[81] - 短期无商业化压力,保持非营利研究属性[64][65] - 长期目标2C通用机器人[83] 行业趋势判断 - 具身智能发展受限于视频数据贫乏,需突破语言模型依赖文字富矿的路径依赖[9][35] - 当前投资环境存在"非共识投资"与"确定性偏好"的矛盾,但机器人硬件进步带来信心[66] - 全球竞争格局下,技术路线终局思维比短期商业化更重要[67]