视频学习
搜索文档
人形机器人大概要进入第一轮寒冬
自动驾驶之心· 2025-11-03 16:55
行业当前面临的挑战 - 特斯拉Gen2因发热和灵巧手短命问题暂停今年量产计划,Gen3推迟至明年Q1发布[3] - 国外公司表现不及预期,如Figure03被爆出视频多次拍摄剪辑,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人称人形机器人进入家庭市场还需5-10年[4] - 国内行业存在虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单[5] - 硬件发展迅速(如宇树通过电驱技术超越波士顿动力液压系统),但过去50年仍未实现机器人大规模普及[7] 技术发展的核心瓶颈 - 当前AI技术能否让人形机器人涌现智能存在重大疑问,截至2025年底尚未出现令人惊叹的通用智能[8][9] - 现有技术(如VLA)仅在特定场景下有效,缺乏泛化能力,无法适应家庭等复杂环境[11][12] - 视频学习技术仍处于大公司预研阶段,尚未落地,例如特斯拉Optimus虽宣称能用视频学习在工厂行走,但无公司能证明通过视频学习实现灵巧手泛化操作[13][15][17] - 技术环节存在多个卡点,如强化学习的奖励函数设计、手部识别精准度、逆动力学模型准确率等,任一问题都可能成为致命伤[15][16] 潜在的超预期因素 - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为“无与伦比的产品”,若明年Q1展示成功可能扭转行业预期,若翻车则可能导致行业进入寒冬[18][19][20][21] - 硬件极致化开辟新市场,宇树通过泛娱乐路线(如售价9998元的小机器人)吸引企业跟进,即使通用AI发展遇阻,泛娱乐领域的研究仍会持续[22][23] 行业长期展望 - 人形机器人当前的不及预期可能类似新能源汽车早期的蛰伏期,是技术迭代蓄力的阶段[24]
繁华落幕,人形机器人或将进入寒冬
自动驾驶之心· 2025-10-30 08:04
行业现状与市场预期 - 人形机器人行业面临普遍不及预期的状况,国外公司的表现和专家预言均不乐观 [4][5] - 特斯拉Optimus Gen2因发热、灵巧手短命问题暂停今年量产计划,Gen3再次跳票至明年第一季度 [5] - Figure 03被爆出存在多次拍摄剪辑问题,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人预计人形机器人进入家庭市场还需5-10年 [6] - 国内市场呈现虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单 [7] 技术瓶颈与核心挑战 - 硬件繁荣带来误区,误以为软件跟进是迟早之事,但过去50年硬件虽经翻天覆地变化(如宇树电驱打败波士顿动力液压技术)却仍未实现机器人大规模实用化普及 [8][9] - 本质卡点在于当前AI技术能否让人形机器人行业涌现智能仍存巨大疑问 [10] - 现有技术多基于VLA在特定场景下训练,可完成叠衣服、分拣包裹等任务,但缺乏泛化能力,无法适应家庭环境 [13][14] - 视频学习技术虽被特斯拉AI负责人及科研论文强调,但尚无公司能证明其可实现灵巧手的泛化操作,技术卡点包括强化学习奖励函数设计、手部识别精准度、逆动力学模型准确率等 [15][17] - 视频学习和世界模型仍处于大公司预研阶段,远未到落地阶段,多数公司(包括谷歌DeepMind)仍采用真机采集操作 [19] 潜在机遇与发展路径 - 行业存在两个不确定因素:特斯拉Optimus Gen3是否可超预期,以及硬件极致化能开拓何种市场 [19][24] - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为无与伦比的产品,若明年第一季度展示失败则行业预期可能消耗殆尽 [20][21][22] - 宇树科技通过将硬件做到极致,走出泛娱乐化机器人道路,为行业提供了卖铲子式的发展路径,即使通用AI遇冷,泛娱乐路线研究仍会持续 [25][26] - 参考新能源汽车早期寒冬后的技术迭代与爆发,当前人形机器人的不及预期可能是一种蓄力 [27]
抢跑特斯拉,中国团队用视频学习教机器人学会操作
机器人大讲堂· 2025-09-28 08:30
视频学习技术突破 - 跨维智能YOTO框架仅需30秒人类演示视频即可训练双臂机器人完成复杂操作 无需动作捕捉或真机数据[1] - 升级版YOTO++框架实现95%任务成功率 能自主识别物体状态并处理随机干扰[2] - 技术通过关键帧序列和运动掩码解决本体差异问题 实现跨机器人平台稳定迁移[5][11] 核心技术方法论 - 采用示教驱动的快速示例增殖技术 通过3D几何变换生成多样化可验证训练样本[7] - 引入视觉对齐模块 利用2D掩膜几何特征估计位姿偏差 实现高频闭环校正[7] - 结合视觉语言大模型(VLM)与扩散策略(BiDP) 形成语义引导与动作生成的协同框架[8][11] 行业应用前景 - 家居服务场景中单次视频输入即可达到≥95%任务成功率 通过连续20次一镜到底压力测试[12][14] - 技术实现新技能0真机快速生成 具备跨场景规模化部署潜力[15] - 可能重塑工业智能化路径 使机器人通过观看历史视频掌握失传工艺[19] 行业技术趋势 - Google等公司探索多模态语言模型与机器人控制结合 强调跨任务泛化能力[8] - Tesla等工业阵营转向视觉驱动数据采集 减少对昂贵动作捕捉系统的依赖[8] - 视频学习框架利用互联网视频和半结构化演示数据 构建分层样本池实现高效训练[9][11]
机器人数据闭环深度:机器人VLA核心算法专家
2025-05-26 23:17
纪要涉及的行业和公司 - **行业**:机器人行业 - **公司**:巨轮智能、Cosmo Films、特斯拉、理想汽车、Google、英伟达、小鹏汽车 [2][3][23][26][27][29] 纪要提到的核心观点和论据 1. **VLA 算法发展与应用** - **发展起源**:VLA 算法发展源于大语言模型与多模态融合,通过 Transformer 结构实现输入输出,广泛用于巨轮智能领域 [2] - **面临问题及解决途径**:大语言模型在物理智能体领域对几何信息描述弱,可绕过语言模型用已训练 LM 部分,或通过大量视频学习提升空间信息理解能力 [1][2][3][5] - **构建方式**:构建 VLA 不一定依赖大语言模型,特定任务可用强化学习,可将语言接口独立作为与人类交互接口 [4] 2. **视频训练与仿真训练** - **视频训练**:大量视频训练是提升 VLA 对空间信息理解能力的重要途径,但存在 2D 视频还原 3D 空间信息的映射问题和数据筛选清洗工程量大的问题 [1][5][6] - **仿真训练**:仿真分传统仿真和基于生成式模型的仿真,后者潜力大但处于起步阶段且算力要求高 [7] 3. **开源 VLA 框架技术路线**:开源 VLA 框架有纯 Transformer 和快慢系统两种技术路线,前者算力要求高,后者存在信息传递瓶颈,未来可能收敛到单个 Transformer 结构 [1][8] 4. **机器人发展现状与瓶颈** - **硬件与算法关系**:当前机器人方向存在硬件领先于算法的问题,VLA 缺乏方法性和泛化性 [1][10] - **算法瓶颈表现**:最大瓶颈是缺乏强大仿真模型和 3D 空间理解能力,依赖世界模型 [1][11] - **世界模型问题**:解决世界模型主要矛盾是数据量问题,需从 next token prediction 迁移到 next frame prediction 并进行复杂数据筛选清洗 [1][13] 5. **模型结构与适配** - **主流结构**:主流结构如 AIT 夹 Transformer 较好用且有扩展潜力,不排除新模型或架构出现 [14] - **大脑算法与本体结构关联**:大脑算法与本体结构设计强关联,可通过双系统方式设计适配不同本体结构,降低一体化大模型训练成本 [2][15] 6. **硬件发展需求**:硬件层面主要问题有关节电机、触觉传感器和一体化灵巧手,触觉传感器发展重要 [16] 7. **VRA 任务能力** - **长程任务能力**:当前 VRA 只能完成短程任务,完成长程任务如制作咖啡需具备长程任务能力,面临 context 长度不够问题,可通过人工设计数据或 ARM 等方式解决 [18][19] - **复杂任务处理**:当前参数量架构在数据量不足时无法有效处理复杂任务,世界模型理解能力随算力发展有提升空间,但参数量增加不一定能解决复杂任务问题 [21] 8. **泛化能力与产业发展** - **复杂任务泛化**:复杂任务泛化能力处于探索阶段,现有深度学习方法可能存在瓶颈,无法找到全局最优参数 [22] - **产业发展途径**:提升算力和数据量可推动产业发展,若现有路径无法实现复杂任务泛化,需探索新架构 [22] 9. **技术借鉴与应用场景** - **自动驾驶借鉴**:自动驾驶技术发展可为机器人技术提供借鉴,但机器人自由度多,泛化难度指数级增长 [23] - **特定场景应用**:特定场景使用不同模型可行,可替代部分人工,提高机器人商业化程度;工业应用可通过不同模块组合实现特定场景自动化,但需考虑成本和效率 [24][25] 其他重要但是可能被忽略的内容 - **大语言模型技术借鉴**:大语言模型发展历程对物理智能体模型框架在降本增效方面有借鉴意义,COT 和 MOE 等技术重要 [2][20] - **各国技术和模型差距**:中美在机器人技术和模型方面均处于早期探索阶段,应用层面未成熟,国外部分 foundation model 表现较好 [26] - **视频生成模型**:视频生成模型即世界模型,Google、英伟达、特斯拉做得较好,小鹏汽车宣称开发 77 亿参数左右的世界模型 [27][29]