机器人训练范式
搜索文档
离职特斯拉“隐身”14个月,杨硕创业终于亮牌:重新定义机器人训练范式
量子位· 2026-03-25 07:52
公司核心技术:DiT4DiT模型 - 核心模型为“DiT4DiT”,是一个端到端的机器人学习视频动作模型,将视频扩散和动作扩散整合到一个级联框架中[9] - 该模型的核心创新在于“中间去噪”设计,即在视频生成模型的去噪过程中途提取关键特征,用于直接指导机器人动作决策,无需等待完整视频生成[11][16] - 模型采用“三时间步”方案,分别为视频生成时间步、特征提取时间步和动作生成时间步,让视频生成与动作预测任务能独立高效工作并协同[25][27][34] - 在LIBERO基准测试中,DiT4DiT模型达到98.6%的平均成功率,证明了其领先的性能[30] - 在宇树科技G1人形机器人上的7个场景任务测评中,DiT4DiT模型的性能全面优于预训练的GR00T-N1.5模型及参数匹配的Qwen3DiT基准模型[41][42] 技术优势与突破 - **数据与训练效率**:采用该视频生成方案,模型的收敛速度提升7倍,数据效率高出10倍以上[29] - **硬件部署优势**:模型整体参数约20亿,可在RTX 4090显卡上实现6Hz推理速度;相比之下,对比方案Cosmos Policy需使用H100专业算力卡才能达到1Hz效率,表明该方案有更好的端侧部署潜力[42][43] - **感知方案简化**:模型仅使用机器人主视角相机,无需腕部相机,降低了系统复杂度,且实验证明主视角相机能达到同等甚至更好的效果[31][35] - **解决行业痛点**:该方案是world model在人形机器人上的首次落地,解决了此前业内相关方案未能在人形机器人上跑通的问题[4][33] - **泛化能力**:通过提取“物理规律”而非“具体画面”特征,使机器人能够零样本适配新场景、新物体,例如面对不同颜色、形状的杯子都能完成放入抽屉的任务[24][40] 研发背景与团队 - 研发公司为妙动科技,其联合创始人兼CTO杨硕曾任职于特斯拉Optimus(擎天柱)团队,是业内知名的离职创业专家[1][47][49] - 公司法定代表人、董事长高建荣曾是大疆最年轻的高管,与杨硕曾在大疆共事[48] - 研究团队共7人,来自妙动科技、香港科技大学(广州)和香港科技大学,通讯作者为梁俊卫教授与杨硕[44][46] - 公司技术团队大量使用强化学习和深度学习技术开发机器人的运动与操作控制器,并已有产品原型和算法成果计划在2026年公布[53] 行业意义与应用前景 - 该技术旨在解决传统视觉-语言-动作模型因基于静态图片和文字训练而无法理解动态物理规律的问题,让机器人通过视频学习物理规律[36][37] - 改变了生成式视频模型在机器人领域的应用方式,使其从辅助生成训练素材变为直接指导机器人动作决策[38][40] - 模型已获得包括Agility Robotics的AI负责人在内的硅谷机器人专家的关注与转发[7] - 公司主营消费级机器人,该研究成果是其研发体系的重要佐证[48][53]