零样本学习
搜索文档
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 09:02
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人策略学习提供了全新范式 [1] - ViVLA的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架在多个基准测试和真实场景中验证了其有效性,特别是在未见过的任务上实现了显著的性能提升,并成功将人类视频知识迁移至机器人动作 [14][16][25] 问题根源与挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效知识迁移 [5] - **数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化,包括并行解码机制与时空掩码策略,以提升推理效率与视频理解能力 [8][12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,最终整合生成了超过89万条专家-智能体训练样本 [8][13][17] 验证逻辑与性能表现 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见过的任务上实现了超过30%的性能提升,成功率从基线模型的0.13提升至0.65 [14] - **跨形态迁移**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA的未见任务成功率仍保持63%,较基线模型提升超过35% [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达74%,较AWDA的36%提升超过38%,部分任务成功率高达100% [16][19] 数据生成与规模 - 通过整合7421个人类示范视频,生成了89,736条人类-机器人配对样本,并结合公开数据集,最终形成了总计892,911条专家-智能体训练样本 [13][17] - 使用的数据集包括Fractal、Bridge、Droid、Language Table、BC-Z、FMB Dataset、Ego4D、EgoDex以及生成的Human2Robot数据集 [13] 技术细节与优化 - **并行解码机制**:摒弃自回归生成,采用单次前向传播同时生成所有动作token,大幅降低了推理延迟 [12] - **时空掩码策略**:对输入视频进行时间与空间维度的随机掩码,强制模型从部分观察中预测动作,强化了全局视频理解能力 [12] - **循环一致性约束**:引入动作缓冲池和局部-全局判别器,强制跨模态动作语义对齐,确保动作表征的鲁棒性 [11] 鲁棒性与消融分析 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在70%以上 [20][23] - **组件有效性**:消融实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降38% [24] 局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升视角 [27] - **误差恢复**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27] 范式价值与行业影响 - ViVLA建立了“数据生成-模型优化-知识迁移”的完整技术链路,通过3D高斯splatting破解配对数据稀缺难题,通过A3C框架与并行解码解决动作表征与推理效率问题 [25] - 其超过89万规模的专家-智能体数据集与模块化架构,为通用机器人策略学习提供了可复用的技术底座,推动机器人从“特定任务训练”向“零样本技能迁移”转型 [25]
为啥机器人集体放弃“跑酷” 全去“叠衣服”了?
机器人大讲堂· 2025-11-24 23:00
行业风向转变 - 机器人行业从展示跑酷、跳舞等极限动作转向专注于叠衣服等家务任务[1][3] - 企业减少概念炒作,开始关注市场需求,技术演示更务实[7] 技术演示案例 - Figure 03使用五指手叠毛巾,但边角容易卷起[5] - Weave Robotics的半自动叠衣视频采用2倍快进,实际速度偏慢[5][20] - 谷歌ALOHA挂衣演示未剪帧,动作缓慢且对齐衣架有困难,但因真实感获得认可[8] - Dyna Robotics让机器人连续18小时叠餐巾,展示单一任务的执着[8] 技术突破驱动 - 十年前PR2机器人需固定绿色背景才能叠简单衬衫,动作缓慢且环境适应性差[9] - 扩散模型和零样本学习成熟后,机器人无需逐步骤编程,仅凭几千条人类演示数据即可学会叠衣[13] - 谷歌ALOHA仅用6000条系鞋带演示数据就让机械臂学会精细操作,叠衣服容错率更高且数据收集更简单[13] - HuggingFace、LeRobot等生态系统降低技术门槛,初创团队可借助预训练模型快速开发演示[13] 市场需求匹配 - 叠衣服是刚性需求,许多用户愿意为此付费,家庭场景价值感知度高[15] - 相比工业场景,家用叠衣落地路径更清晰,容错率高,试错成本低[15] - 任务失败仅需重新摆放衣物,不易损坏设备,适合资金有限的初创团队打磨技术[15] 当前技术局限 - Figure 03叠衣时放得太快,边角卷翘,机器人无法感知衣物材质和受力情况[18] - 1X Technologies的Neo机器人动作僵硬,缺乏人类灵活调整的能力[20] - 演示多在实验室固定环境中进行,桌面纯色平整,衣物单一,背景无干扰[22] - 真实家庭环境复杂,衣物可能混搭,桌面杂乱,光线变化,机器人对齐衣架困难[22] - 企业关注“能否做到”,用户更关心“能否做好”,如是否损坏真丝衬衫、5分钟内叠完一篮衣物等[24] - 当前演示仅完成“折叠”动作,未涉及取衣、整理、收纳等关键步骤[24] 行业发展逻辑 - 早期跑酷、跳舞演示旨在秀肌肉,吸引资本和行业热度[27] - 叠衣赛道爆发标志行业从“我能做什么”转向“用户需要什么”[27] - 工业机器人巨头如发那科、安川的成功在于围绕真实需求研发,如焊接精度和搬运效率[27] - 人形机器人需先解决用户刚需痛点,再拓展复杂功能,遵循市场需求导向的发展逻辑[27] 未来技术方向 - 需优化算法和升级硬件,解决感知精度不足、操作不灵活等问题[29] - 《Science Robotics》论文提出机械臂24小时学会1000项任务的方向,通过高效算法减少数据依赖,提升环境适应性[29] - 技术成熟后,机器人可能从叠衣服拓展到洗碗、擦窗、整理衣柜等更多场景,但需始终围绕用户需求[29] 行业价值回归 - 技术价值在于解决日常真实问题,而非突破极限[30] - 企业应聚焦用户诉求,提升折叠速度、操作精度和场景适配性,实现从取衣到收纳的全流程自动化[30] - 当家务机器人成为日常,人形机器人才能真正实现商业价值[30]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 21:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]