具身智能之心
搜索文档
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心· 2025-12-15 09:04
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式 [1] - ViVLA框架的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架构建了包含89万+专家-智能体配对数据的大规模数据集,并通过技术闭环实现了跨模态动作知识迁移,在多项基准测试和真实场景中展现出卓越的零样本学习与泛化能力 [2][13] 问题根源:现有VLA模型的四大核心挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法从专家行为中提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效的知识迁移 [5] - **自回归建模的固有缺陷**:现有方法存在推理效率等问题 [6] - **高质量配对数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间构建**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化 [8] - **潜在动作编码与对齐**:通过编码器-解码器架构提取潜在动作表征,并采用VQ-VAE量化为离散token,引入循环一致性约束和局部-全局判别器来强制跨模态动作语义对齐 [11] - **并行解码与时空掩码**:摒弃自回归生成,采用并行解码机制单次前向传播生成所有动作token,大幅降低推理延迟;同时采用时空掩码策略,强制模型从部分观察中预测动作,强化全局视频理解能力 [12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,整合多个公开数据集与自生成数据,最终形成了总计892,911条专家-智能体训练样本 [8][13] 性能验证:基准测试与真实场景结果 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见任务上的性能表现显著超越基线模型 [14] - 在相同形态示范下,ViVLA在未见任务上的成功率达到**65%**,远超AWDA的**35%**和UniVLA的**13%** [14] - 在细分任务套件中,LIBERO-Object套件的未见任务成功率最高,达到**74%** [14][18] - **跨形态迁移验证**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA仅出现边际性能下降,未见任务成功率仍保持**63%**,较基线模型提升超过**35%** [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达**74%**,较AWDA的**36%**提升超过**38%** [16] - 部分任务如翻转积木、关闭篮子的成功率达到了**100%** [16][19] 鲁棒性分析与核心组件验证 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在**70%**以上,展现出强大的环境适应性 [20] - **组件消融分析**:实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降**38%** [24] - 移除时空掩码策略,在LIBERO-Spatial未见任务上成功率从**71%**降至**64%** [24] - 使用自回归建模替代并行解码,在LIBERO-Long未见任务上成功率从**51%**降至**35%** [24] 技术贡献与行业影响 - **破解数据稀缺难题**:通过3D高斯splatting等技术,将7,421个人类示范视频转化为89,736条人类-机器人配对样本,并结合公开数据构建了大规模训练集 [17][25] - **建立完整技术链路**:建立了“数据生成-模型优化-知识迁移”的完整链路,为通用机器人政策学习提供了可复用的技术底座 [25] - **推动行业范式转型**:其技术推动机器人从“特定任务训练”向“零样本技能迁移”转型,加速了通用自主机器人的落地进程 [25] 当前局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升第一视角观察 [27] - **误差恢复能力**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模与多样性**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27]
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
具身智能之心· 2025-12-15 09:04
文章核心观点 - 人工智能技术,特别是基于Transformer架构的AEOS-Former模型,正成为解决大规模卫星星座任务规划这一高维、动态、强约束难题的关键,能够显著提升任务完成率并优化资源消耗 [4][16][18][19] 卫星星座的产业价值与规划挑战 - 卫星星座是由多颗卫星组成的协同网络,具备全球覆盖、快速响应和高频观测能力,已成为数字经济时代的关键基础设施,支撑遥感、通信、导航、气象预测等行业 [4] - 星座规划面临四大核心挑战:任务量大(例如美国SkySat星座13颗卫星日均需处理超百项任务)[8]、单次观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(例如“女娲星座”紧急观测任务完成率常不足60%)[10]、以及卫星物理约束条件复杂 [11] 北航团队的技术突破:基准数据集与调度模型 - 团队构建了首个大规模真实星座调度基准数据集 **AEOS-Bench**,包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务,并确保场景的物理真实性与评估全面性(涵盖6类指标)[13][14] - 团队提出了基于Transformer的内嵌约束调度模型 **AEOS-Former**,该模型能显式建模卫星的物理约束(如视场、电池状态),并实现卫星与任务的高效匹配 [16] AI模型性能评估与结果 - 在AEOS-Bench基准测试中,AEOS-Former模型在多项关键指标上均优于随机模型、优化模型及强化学习等基线模型 [18][19] - 具体性能数据:在“Seen”数据划分中,AEOS-Former的任务完成率(CR)达30.47%,综合得分(CST)为5.00,功耗(PC)为71.27 Wh,均优于基线模型;在“Unseen”数据划分中,其任务完成率达35.42%,综合得分为4.43,功耗为68.99 Wh,同样表现最佳 [19] - 研究表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会随资源消耗增加而趋于稳定 [20] 研究意义与未来展望 - 该研究为卫星星座的自动化、智能化规划提供了高效解决方案,并发表于顶级会议NeurIPS 2025 [5][22] - 这项技术印证了“空天具身智能”的巨大潜力,有望让太空设施具备感知、决策与协同的自主能力,拓宽人类探索与利用太空的边界 [22][23]
Q4融资超过亿元的具身公司.......
具身智能之心· 2025-12-15 09:04
文章核心观点 - 文章对2025年具身机器人领域的融资情况进行了一次调研,汇总了29家获得亿元以上融资的公司信息,涵盖了从天使轮到C轮的不同阶段[1] - 调研范围包括具身智能本体公司、零部件生产商、算法类公司等,展示了行业在技术创新与商业化落地方面的多元化进展[1] 融资规模与公司概况 - **智平方**:融资规模为数亿元人民币,是一家AGI原生的通用智能机器人企业,以自研具身大模型和AlphaBot系列产品为核心,已在半导体、汽车制造、电子制造、生物科技与公共服务等领域实现落地[4] - **自变量机器人**:融资规模为10亿元人民币,专注于基于机器人大模型构建可精细操作的通用智能体[5] - **星动纪元**:融资规模为10亿+元人民币,由清华大学交叉信息研究院孵化,致力于研发适应多情景的通用人形机器人[26] - **乐聚机器人**:融资规模为15亿元人民币,从事人形机器人研发,推出Aelos、Talos等系列,采取To B和To C双线业务策略[12] - **云深处科技**:融资规模为5亿元人民币,专注于足式机器人产品开发,其“绝影”系列四足机器人已在巡检、应急救援等多种场景落地应用[32] - **五八智能**:融资规模为5亿元人民币,是中国兵器装备集团旗下企业,重点布局通用型人形机器人与行业级四足机器狗[15] - **星源智机器人**:融资规模为3亿元人民币,由北京智源研究院孵化,致力于构建物理世界的通用具身大脑,并开发了2070Tops的算力平台以实现大脑大模型在端侧运行[6] - **松延动力**:融资规模为3亿元人民币,专注于人形机器人研发与制造,涉及通用人工智能本体、机器人仿生及具身操作系统[14] - **无界动力**:融资规模为3亿元人民币,聚焦构建机器人“通用大脑”与“操作智能”,致力于提供软硬一体的具身智能解决方案[20] - **UniX AI**:融资规模为3亿元人民币,是一家人工智能和人形机器人科技公司,拥有Unitouch触觉大模型等技术,核心零部件实现模块化自研[30] - **中科光电**:融资规模为2.15亿元人民币,专业从事高端智能机器人研发,业务涵盖“仝人智能”焊接机器人、测量机器人、特种机器人及具身智能视觉终端[17] - **乐享科技**:融资规模为2亿元人民币,专注于家庭通用小具身机器人的研发,致力于打造新一代家庭移动硬件终端[10] - **深朴智能**:融资规模为2亿元人民币,是一家通用具身智能机器人研发商,主要从事智能机器人的研发与服务[19] - **微分智飞**:融资规模为1亿元人民币,致力于打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级[7] - **Dyna Robotics**:融资规模为1.2亿元人民币,是一家AI驱动机器人研发商,专注为各类企业打造具备智能基础模型能力的机器人[8] - **泉智博Motorevo**:融资规模为1亿元人民币,是一家机器人关节研发商,致力于机器人动力单元以及桌面机械臂和四足机械狗的研发[9][18] - **千觉机器人**:融资规模为1亿元人民币,是一家具身智能传感器公司,研发面向机器人精细操作的高维度多模态触觉感知技术及相关产品[11] - **昇视唯盛**:融资规模为1亿元人民币,自主研发“AI+3D+ROBOT”系统的智能机器人,针对制造业自动化柔性不足的痛点打造焊接、打磨等专用智能机器人[16] - **加速进化**:融资规模为1亿元人民币,是一家人形机器人研发商,致力于研发更富有行动能力的人形机器人本体和易于开发的运控开发平台[22] - **新生纪智能**:融资规模为1亿元人民币,是一家商用清洁机器人研发商,已有商用扫地机器人SP50、商用洗地机器人L50等多款产品面市[25] - **傲意科技**:融资规模为1.6亿元人民币,专注于无创脑机接口与神经康复机器人核心算法和整机研发,产品覆盖医疗康复、具身智能及工业场景[27] - **戴盟机器人**:融资规模为1亿元人民币,致力于研发高分辨率多模态触觉感知、触觉灵巧手及穿戴式遥操作数据采集系统[28] - **灵生科技**:融资规模为1亿元人民币,是一家具身智能机器人研发商,基于自创的多模态感知融合系统构建机器人通用类脑[31] - **灵心巧手**:融资规模为数亿元人民币,聚焦以“灵巧手+云端智脑”为核心的具身智能平台,自主研发了Linker Hand系列灵巧手及相关平台化产品[13] - **原力灵机**:融资规模为数亿元人民币,专注于工业和物流自动化领域的具身智能解决方案,结合LLM、VLM、RL等前沿技术开发智能算法[21] - **星尘智能**:融资规模为数亿元人民币,是一家服务消费类人形机器人、一体化仿生机器人研发商,致力于可落地商用的新一代AI人形机器人Astribot系列[23] - **鹿明机器人**:融资规模为数亿元人民币,是一家具身智能机器人研发商,聚焦家庭场景,关注产品定义能力及软硬件综合迭代能力[29] - **光轮智能**:未披露具体融资规模,致力于以高质量仿真、合成数据与物理AI技术驱动机器人走向现实,提供全流程解决方案,客户包括英伟达、谷歌、Figure AI、比亚迪等国内外顶尖企业[24] 技术方向与业务重点 - **通用智能与大脑平台**:多家公司致力于研发通用智能体、具身大脑或操作系统,如星源智机器人构建“物理AI”模型和通用大脑[6],无界动力聚焦“通用大脑”与“操作智能”[20],灵生科技构建云-边-端一体化类脑[31] - **核心零部件与传感器**:部分公司专注于机器人关键零部件研发,如泉智博Motorevo研发机器人关节[9][18],千觉机器人研发高维度多模态触觉感知技术及传感器[11],戴盟机器人研发触觉灵巧手及感知系统[28] - **垂直场景应用**:行业应用落地广泛,涵盖工业制造(如智平方[4]、昇视唯盛[16]、中科光电[17])、特种与公共服务(如云深处科技[32]、五八智能[15])、家庭服务(如乐享科技[10]、鹿明机器人[29])、商用清洁(新生纪智能[25])以及空中机器人(微分智飞[7])等多个领域 - **软硬件一体化与全栈能力**:许多公司强调软硬件协同发展,如星源智机器人采用“软硬件一体”策略降低部署成本[6],UniX AI核心零部件全部实现模块化自研[30],灵心巧手基于软硬件双领域协同[13] - **前沿技术融合**:公司积极融合多种前沿AI技术,如原力灵机结合大语言模型(LLM)、多模态视觉模型(VLM)、强化学习(RL)[21],光轮智能提供从数据采集到Sim2Real部署的全流程解决方案[24]
没有好的科研能力,别想着去工业搞具身了~
具身智能之心· 2025-12-15 09:04
行业人才供需状况 - 具身智能领域具备完整科研能力的在校学生已成为市场稀缺人才 许多学生在毕业前就被猎头和HR预定[1] - 市场对人才的核心要求是“具备完整的科研能力” 即能独立完成发现问题、定义问题、提出解决方案并形成方法论的全过程 而非简单的读论文能力[1] - 当前许多学生面临导师不熟悉具身智能方向 需要自行调研的困境[2] 行业研究热点与方向 - 具身智能领域的科研与辅导覆盖多个前沿技术方向 包括大模型、视觉语言模型、视觉语言导航、端到端学习、强化学习以及扩散策略等[3] - 机器人相关技术是研究重点 具体涉及机器人决策规划、运动规划、双足/四足机器人控制以及遥控操作等领域[3] - 感知与建模技术同样关键 研究方向包括位姿估计、3D高斯泼溅、同步定位与地图构建以及触觉感知等[3] - 其他重要研究方向包括模拟到真实的迁移、具身交互以及零样本学习等[3] 行业服务与业务模式 - 市场存在针对科研难题的付费辅导服务 旨在帮助学生快速提升研究能力[2] - 服务内容涵盖从论文选题到全流程指导的完整科研支持[6] - 具体服务包括解决领域痛点难点、提供真机使用与数据采集经验指导、实验设计与效果优化以及论文写作辅导等[7] - 服务提供方宣称其中标率很高 并有辅导成果被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶级会议和期刊收录[8] - 辅导服务按论文目标级别差异化定价 目标级别包括具身智能顶会/顶刊、CCF-A/B/C类会议期刊、SCI各分区、中科院各分区以及EI/中文核心等[11] - 服务范围不仅限于学术论文 也涵盖毕业设计、申博准备及比赛指导等需求[11]
具身智能之心招募编辑、运营和销售的童鞋啦
具身智能之心· 2025-12-14 00:02
公司业务与平台定位 - 具身智能之心是具身智能领域的优秀技术创作平台 [1] - 平台为行业输出大量前沿技术、课程、行业概况、融资、产品、政策等内容 [1] - 平台目前正处于业务上升期 [2] 招聘岗位与职责 - 编辑岗位负责日常公众号平台的内容创作与编辑 [2] - 编辑岗位要求具备一定的专业基础,并在知乎、公众号等平台有内容创作经验 [2] - 销售岗位负责平台课程、硬件等产品的销售推广 [3] - 销售岗位要求具备一定的销售基础,并对具身智能用户需求与市场有一定了解 [3] - 运营岗位负责公众号、小红书、社群的运营,以提升粉丝粘性和关注度 [4] - 运营岗位要求有一定的运营能力,并对自媒体平台的玩法有一定认识 [4] - 所有招聘岗位均为全职 [2] 联系方式 - 有意者可添加指定微信进行咨询 [5]
招募VLA+RL&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-12-14 00:02
文章核心观点 - 公司正在招募具身智能领域特定方向的合作伙伴 共同研发课程或实战项目 旨在为行业从业者提供更多见解 [1][2] 合作方向与内容 - 合作聚焦于具身VLA+RL 机器人运控 以及数采相关领域 [2][4] - 具体合作内容包括相关课程的设计与PPT制作 [4] 合作伙伴资质要求 - 潜在合作伙伴需正在从事具身智能领域研究 [5] - 要求至少发表过一篇CCF-A级别会议论文 或拥有1年以上的工业界经验 [5] 合作形式与激励 - 合作形式灵活 可兼职 [6] - 公司提供高于行业水平的薪资以及资源共享机会 [6] 联系方式 - 有意者可添加指定负责人微信进行进一步沟通 [3][6]
在看完近50篇VLA+RL工作之后......
具身智能之心· 2025-12-14 00:02
具身智能领域技术发展综述 - 文章核心观点:梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作,展示了该领域从2023年到2025年底的技术发展历程,主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型,以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型,该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法,通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT,通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法,证明其可扩展至大模型 [14] - 提出Q-Transformer,通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差,提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构,用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法,基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA,采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env,利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA,通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA,通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA,一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT,在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型,用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models,实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning,一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL,通过强化学习扩展VLA训练规模 [63] - 提出RLRC,基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO,通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF,为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL,通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法,用于VLA模型 [79] - 提出SafeVLA,通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE,通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG,通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL,可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe,通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL,为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法,利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO,用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT,通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner,通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume,在VLA模型中引入系统2思维 [119] - 提出V-GPS,通过价值引导改进机器人基础模型 [121][122]
用SO-100,竟然完成这么多VLA实战......
具身智能之心· 2025-12-13 09:02
文章核心观点 - 文章指出,视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍,许多初学者和研究者即使拥有开源模型和硬件,也难以复现演示效果或成功部署[2][4] - 文章认为,打通数据采集、模型训练优化与部署的全流程存在高门槛,涉及大量未公开的实践技巧,导致学习曲线陡峭,效果难以保证[4][7] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的付费课程,该课程宣称提供从硬件到算法的全栈实战培训,以解决上述落地难题[10][12] VLA模型落地的主要挑战 - **模型复现与效果达成困难**:即使如GR00T、PI0等模型已开源,依据其代码也难以展示出良好的演示效果[2] - **训练与推理存在鸿沟**:训练过程类似“炼丹”,损失函数虽已降低,但部署到实体机器人进行推理时任务常失败,且原因难以定位[2] - **世界模型应用模糊**:业界讨论世界模型已一年多,但学习者不清楚如何在训练和推理中具体应用[2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套任务打通对初学者非常困难,有人踩坑半年仍无法入门[4] - **模型训练依赖技巧与细节**:π0、π0.5、GR00T等模型的训练存在许多“trick”,对细节和技巧要求很高[4][7] VLA落地的关键模块与技术难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习,在机械臂领域多采用前两种,如何保证数据质量及实现sim2real是关键[5][6] - **模型训练与仿真调试**:在真机数据不足时,仿真和sim2real尤为重要,常使用mujoco、Isaac Gym等框架,训练技巧是关键,例如如何微调模型、在小数据量下取得好结果[7] - **模型部署与轻量化**:训练完成后需对模型进行“瘦身”,因具身模型参数量大,即使2B规模对边缘芯片部署挑战也大,需采用量化、蒸馏等轻量化操作以保证性能并最小化参数量[9] 课程内容与结构 - **课程定位**:课程由具身智能之心平台联合VLA专家开发,宣称是国内首个面向实战与求职的VLA小班课[10] - **课程内容覆盖面广**:涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解[12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂,包含示教臂和执行臂[17] - **讲师背景**:讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,熟悉全栈技术,并在顶级期刊发表论文10余篇[20] - **面向人群**:包括正在具身领域求职者、VLA入门进阶者、相关领域学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员[22] - **技术要求**:建议推理使用3060及以上显卡,训练使用2张以上3090ti显卡,学员可自租云服务器,并需具备一定的Python和PyTorch基础[22] - **课程收获承诺**:学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,对产业落地有清晰认识,简历可获得足够项目支撑,学完可达1-2年以上算法工程师经验水平[25] 课程时间安排 - **开课时间**:课程于2025年12月30日正式开课[23] - **课程章节时间表**: - 第一章:2025年12月30日[26] - 第二章:2026年1月7日[26] - 第三章:2026年1月10日[26] - 第四章:2026年1月25日[26] - 第五章:2026年1月30日[26] - 第六章:2026年2月6日[26] - 第七章:2026年2月16日[26] - 第八章:2026年2月21日[26] - 第九章:2026年2月25日[26]
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 09:02
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人策略学习提供了全新范式 [1] - ViVLA的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架在多个基准测试和真实场景中验证了其有效性,特别是在未见过的任务上实现了显著的性能提升,并成功将人类视频知识迁移至机器人动作 [14][16][25] 问题根源与挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效知识迁移 [5] - **数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化,包括并行解码机制与时空掩码策略,以提升推理效率与视频理解能力 [8][12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,最终整合生成了超过89万条专家-智能体训练样本 [8][13][17] 验证逻辑与性能表现 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见过的任务上实现了超过30%的性能提升,成功率从基线模型的0.13提升至0.65 [14] - **跨形态迁移**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA的未见任务成功率仍保持63%,较基线模型提升超过35% [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达74%,较AWDA的36%提升超过38%,部分任务成功率高达100% [16][19] 数据生成与规模 - 通过整合7421个人类示范视频,生成了89,736条人类-机器人配对样本,并结合公开数据集,最终形成了总计892,911条专家-智能体训练样本 [13][17] - 使用的数据集包括Fractal、Bridge、Droid、Language Table、BC-Z、FMB Dataset、Ego4D、EgoDex以及生成的Human2Robot数据集 [13] 技术细节与优化 - **并行解码机制**:摒弃自回归生成,采用单次前向传播同时生成所有动作token,大幅降低了推理延迟 [12] - **时空掩码策略**:对输入视频进行时间与空间维度的随机掩码,强制模型从部分观察中预测动作,强化了全局视频理解能力 [12] - **循环一致性约束**:引入动作缓冲池和局部-全局判别器,强制跨模态动作语义对齐,确保动作表征的鲁棒性 [11] 鲁棒性与消融分析 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在70%以上 [20][23] - **组件有效性**:消融实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降38% [24] 局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升视角 [27] - **误差恢复**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27] 范式价值与行业影响 - ViVLA建立了“数据生成-模型优化-知识迁移”的完整技术链路,通过3D高斯splatting破解配对数据稀缺难题,通过A3C框架与并行解码解决动作表征与推理效率问题 [25] - 其超过89万规模的专家-智能体数据集与模块化架构,为通用机器人策略学习提供了可复用的技术底座,推动机器人从“特定任务训练”向“零样本技能迁移”转型 [25]
全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心· 2025-12-13 09:02
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一:环境差异**:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - **挑战二:模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - **挑战三:算力负担**:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种:外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,**没有真正发生质变** [19] - **第二种:暴力美学**:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种:从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**:VLA模型分为**VLM主干**和轻量级**Action Head**,采用LoRA技术避免全量微调 [17][18] - **第一阶段:在线强化学习**:**冻结VLM主干**,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - **第二阶段:监督学习**:**解冻VLM主干**,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - **循环迭代**:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - **真实世界表现**:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率**飙升到了80%**,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - **消融实验**:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - **持续学习**:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - **行业影响**:iRe-VLA是**全球最早将在线RL引入VLA的工作之一**,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]