纯视觉训练

搜索文档
马斯克新思路:Optimus或能靠看视频学会折衣服
金十数据· 2025-08-26 14:39
公司战略调整 - 特斯拉在6月底将Optimus人形机器人训练策略转向纯视觉方法 摒弃动作捕捉服和远程操控 [1] - 公司通过拍摄工人执行任务(如拾取物体或折叠T恤)的视频进行训练 使用自制的五个摄像头多角度采集数据 [1][4] - 策略转变使数据收集规模扩大 与马斯克坚持的"仅通过摄像头掌握复杂任务"理念一致 [1] 技术实现路径 - 此前采用动作捕捉服和VR头显记录人类操作数据 但设备问题限制数据收集量 [1][4] - 新方法中工人佩戴搭载摄像头的头盔和背包 多角度拍摄以精确定位环境细节(如关节和手指位置) [4] - 训练时工人需反复执行特定任务(尤其是手部动作) 确保动作接近人类 [5] 行业对比 - 动作捕捉和远程操控是机器人行业标准做法(例如波士顿动力Atlas机器人) [2] - 特斯拉采用与其他自动驾驶公司不同的传感器策略:依赖摄像头而非激光雷达/毫米波雷达 [7] - 专家指出仅依赖视频数据难以实现物理交互转化 需结合环境交互学习 [3] 数据规模需求 - 马斯克承认机器人训练需求至少是自动驾驶汽车的10倍 [7] - 公司通过数百万辆配备8-9个摄像头的特斯拉车辆收集数据 并利用公开街道视频训练AI系统 [7] - 专家强调需开发可泛化动作体系 否则训练所有任务将耗时极长 [5] 项目挑战 - 训练人形机器人比自动驾驶更艰巨 需同时理解视频内容并具备执行技能 [7] - 可能采用Physical Intelligence公司策略:通过大量演示数据学习可迁移技能而非死记硬背 [6] - 视频数据可能用于补充此前通过远程操控收集的信息 [4] 组织变动 - 策略调整发生在Optimus项目主管Milan Kovac辞职后 AI主管Ashok Elluswamy接管项目 [1]