Workflow
具身智能之心
icon
搜索文档
具身基座模型的曙光初现,全球最强跨本体VLA来啦!
具身智能之心· 2026-01-20 08:33
文章核心观点 - 一款名为Being-H0.5的模型通过整合全球主流机器人构型数据,打破了具身智能领域依赖单一本体数据积累的“马太效应”行业逻辑,展现出惊人的跨本体泛化能力[3] - 该模型的核心突破在于构建了全球规模最大的跨本体训练数据集UniHand-2.0,并创新性地采用了以人为中心的训练范式,将人类视频作为所有下游机器人的“原型模板”[6][11][13] - 在真机验证和基准测试中,模型性能超越了当前已知的VLA模型,其成功可能为行业开启一个打破数据壁垒、降低开发成本的泛化新时代[18][19] 根据相关目录分别进行总结 构建全球规模最大的训练数据集UniHand-2.0 - 数据集涵盖超过14,000小时的机器人操作数据与16,000小时的人类视频数据,总训练token数突破4000亿,规模达到Qwen2.5-VL的十分之一[6] - 首次实现了跨本体的大规模数据融合,汇集了超过30种不同硬件构型的数据,解决了以往异构本体数据难以统一训练的挑战[8] - 创新性地提出了统一动作空间框架,将双足人形、轮式底盘、桌面机械臂等形态各异的机器人映射到同一特征表示空间,支撑跨本体联合训练[10] 以人为中心的训练范式 - 在上一代H0基础上,将人类视频训练数据提升了2个数量级,通过16,000小时的庞大体量构建了全球最大的人类视频数据集[11] - 设计了一套名为UniCraftor的便携、可扩展、低成本的人类视频采集系统,以解决人类视频普遍缺乏高质量标注的痛点[11] - 人类视频蕴含海量即兴意图,覆盖了下游场景几乎所有任务类型,能有效避免模型在预训练过程中坍缩到单一的低维流形,实现跨本体泛化[13] - 人类视频蕴含丰富的物理与空间先验信息,赋予了模型仅靠实验室数据所不具备的场景泛化能力[14] 模型架构与技术方法 - Being-H0.5是一个专门的专家混合模型,解耦了多模态理解与动作生成功能,同时通过共享的注意力机制保持两者的耦合[17] - 通过一个统一的状态-动作空间,将人手动作和多样化的机器人控制映射到语义对齐的槽位,支持跨实体形态的预训练[17] - 预训练将多模态数据序列化为统一的问答式格式,并将每种模态分配给相应的专家分支[17] - 采用“混合流”设计,结合共享的基础层与用于特定实体形态/任务动态的路由式专用专家,实现了动作生成能力的扩展[17] 真机验证与基准测试结果 - 在PND、G1、Franka等不同构型的人形机器人、机械臂本体上进行了大量真机实验,模型展现出卓越的跨本体与复杂任务执行能力,例如完成“用按压喷壶浇花”这类以往夹爪式机器人难以实现的操作[18] - 在LIBERO、RoboCasa等广泛使用的评测基准上,模型在仅依赖模仿学习与纯RGB视觉输入的条件下,平均取得了98.9%与54%的成功率[18] - 该性能超越了π-0.5、GR00T等所有已知VLA模型,甚至优于部分借助强化学习与3D模态的方案[18] 行业影响 - Being-H0.5的出现对国内外绝大多数具身公司而言是一大利好,本体公司可能不再需要投入上亿成本自建数据采集中心、依靠自身本体数据构筑算法护城河[19] - 该模型为“如何适配不同构型本体、获取高质量数据”这一行业难题提供了一个答案,即人类本身才是最大、最自然的数据来源[19]
星尘智能x清华x MIT发布CLAP框架!让机器人看视频学操作技能
具身智能之心· 2026-01-20 08:33
文章核心观点 - 星尘智能与多所高校联合提出了一种名为“对比学习隐空间动作预训练”(CLAP)的新框架,该框架能够将人类视频中的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量互联网视频中学习技能,从而解决机器人学习领域的“数据饥荒”难题 [2][3][4] 技术框架与创新 - CLAP框架通过对比学习,将视频中的状态转移映射到一个**量化、物理上可执行的动作码本**上,有效解决了以往潜在动作模型中普遍存在的“视觉纠缠”问题 [3][4][7] - 框架基于两种视觉-语言-动作(VLA)建模范式:**CLAP-NTP**(一种自回归模型,擅长指令跟随与对象泛化)和 **CLAP-RF**(一种基于Rectified Flow的策略,面向高频、精细化操控) [4][8] - 研究团队提出**知识匹配(KM)正则化策略**,有效缓解了模型微调过程中的灾难性遗忘现象,确保机器人在学习新技能时不会丢失已掌握的能力 [5][8] - 该框架构建了一个统一的VLA框架,能够同时利用**机器数据的动作精确性**与**大规模无标注人类视频演示的语义多样性** [9] 性能与实验结果 - 大量实验表明,CLAP**显著优于强基线方法**,使得从人类视频中学到的技能能有效迁移到机器人执行中 [5][12] - 在原始设置的真实世界任务中,CLAP-RF模型的**任务平均成功率(Task Mean)达到61.0%**,优于To.5基线方法的60.0%和UniVLA基线方法的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF模型的**平均成功率(Mean)达到66.7%**,显著高于To.5基线方法的56.7%和UniVLA基线方法的16.7% [15] 产业应用与价值 - CLAP框架使机器人能够从**YouTube、抖音等平台的海量视频**中学习技能,极大扩展了可用训练数据的规模,显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望**加速机器人在服务业、制造业等领域的规模化应用**,因为企业部署机器人的成本和周期将因机器人能通过观看视频快速掌握新技能而大幅降低 [5]
遥操数据没采好,对后续影响有多大?
具身智能之心· 2026-01-19 17:30
行业现状与核心痛点 - 视觉-语言-动作模型是当前具身智能领域的关注焦点,在学术界和工业界均受到高度重视 [1] - VLA模型的性能上限高度依赖于数据采集的质量,高质量遥操作数据是模型有效性的基础 [2] - 行业在复现主流模型时面临数据采集困难的核心挑战,仿真数据与真机存在巨大差距,导致模型在仿真中表现良好但在真机上失效 [3][5] - 专业级遥操作设备成本高昂,动辄数万元人民币,对普通学生和初创团队构成资金门槛 [5] - 技术全链路存在断层,从业者常面临从机械臂控制到数据格式对齐的完整流程挑战 [5] 课程解决方案与核心亮点 - 课程定位为国内首个具身数采与遥操算法全栈课程,注重实战与手感,旨在帮助从业者节省摸索时间 [3] - 采用软硬结合的教学方式,同时覆盖MuJoCo仿真环境与真机实操,基于主流LeRobot框架教授工业标准数据集的采集方法 [7][8] - 引入自研手持夹爪遥操硬件方案Ringo,以解决遥操作中视角与控制不统一的痛点,实现更精准的TCP坐标转换与重定向 [9] - 课程内容设计实现全场景覆盖,从单臂操作延伸至双臂协同、力反馈采集及全身动捕方案 [10][12] - 课程提供完整的项目经验,目标使学员能够独立完成从硬件组装调试到算法部署的全流程 [26] 详细课程大纲与内容 - **第一章**:涵盖遥操作技术概述、基础定义、经典系统架构、核心技术挑战以及主流数据采集方法,并对具身智能前沿VLA模型进行详解 [6] - **第二章**:聚焦于MuJoCo仿真环境,介绍物理引擎基础、仿真要素,并实现基于仿真的遥操作应用与数据采集 [6][11] - **第三章**:以SO-100系统为例进行真机演示,深入讲解关节同构遥操作原理及LeRobot框架的驱动与数据采集代码 [6][14] - **第四章**:作为高阶进阶内容,详细讲解TCP映射遥操作原理,并深入介绍自研Ringo硬件方案的结构、传感器选型、组装调试及与LeRobot框架的集成 [6][16][19] - **第五章**:涉及更复杂的数据采集场景,包括双臂协同遥操作的难点与常用方法,以及力反馈数据采集的意义与实现方案 [6][17][19] - **第六章**:讲解全身动捕方案,包括光学与惯性动捕系统原理、结构设计以及坐标重映射算法 [6][17] 课程安排与面向人群 - 课程计划于2026年1月30日开课,采用离线视频教学与VIP群答疑结合的模式,预计两个半月完成全部内容 [23][24] - 课程内容将按章节逐步解锁,从1月30日的第一章开始,至3月8日解锁第六章 [23] - 目标学员包括具身智能领域的求职者、科研院校师生、计划从其他领域转行的开发者以及对机器人DIY感兴趣的硬件发烧友 [26] - 课程旨在使学员成为能独立完成硬件组装调试、采集工业级VLA训练数据、掌握模型真机部署技巧的复合型人才,并积累完整的实战项目经验以助力求职 [26]
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了
具身智能之心· 2026-01-19 17:30
文章核心观点 - 现有机器人学习数据集和任务设计存在系统性缺陷,过于集中于少数常见任务(如“拾取并握持”),缺乏对复杂和长尾任务的覆盖,导致训练出的模型存在显著偏差,在真实场景中的适用性受限[2][3][5] - 为应对上述问题,上海交通大学等研究团队提出了GM-100基准测试,这是一个包含100项精心设计、多样化且具挑战性的任务集合,旨在全面评估机器人智能体能力,并推动数据集任务设计向多样化与复杂化方向发展[2][4] - GM-100基准测试的任务设计基于对人类-物体交互原语和物体功能特性的系统性分析,而非主观实用性标准,确保了任务的多样性和物理合理性[4][9] - 实验结果表明,GM-100的任务具备可执行性和足够的挑战性,能够有效区分当前主流视觉-语言-动作模型的性能[2][4] 提出的背景与问题 - **现有数据集概况**:Open X-Embodiment整合了22种不同机器人的数据集,包含160,266项任务;Agibot收集了200余项任务及超过100万条轨迹;RoboCOIN为421项任务提供了18万余条演示数据[3] - **任务设计缺陷**:去除重复项并按语义分类后,发现大多数任务集中于“拾取并握持”等极为常见的行为,缺乏对复杂任务与长尾任务的覆盖[3][5] - **评估标准问题**:多数研究在提出新方法时,仅在少数常见任务上进行测试,且缺乏统一的任务设计标准,使得不同研究成果之间难以进行公平对比[3] GM-100的任务设计方法 - **设计原则**:依据人类动作合理性设计机器人任务,旨在构建一组多样化的任务,涵盖广泛的交互场景,同时考虑动作的耦合性,并确保长尾、稀有但重要的动作得到体现[9] - **设计流程**: 1. 基于以往研究选择基础交互动作,收集任务并去重分类[9] 2. 参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,扩展和补充任务列表[9] 3. 利用大型语言模型(如Qwen3)基于精心设计的提示词自动生成大量候选任务[10] 4. 通过大型语言模型和五名人类专家对生成任务的机器人可执行性进行评分和筛选,获得高质量任务[10] - **任务筛选与构建**:根据任务得分确定优先级,为高优先级任务设计具体交互细节并筛选物体,制定明确的任务完成评估标准,并录制人类完成任务的模板视频以指导数据收集[10] - **最终集合**:考虑到工作量,选取100个任务组成GM-100基准测试集,作为该系列的首个版本[11] 数据收集与硬件平台 - **数据规模**:通过遥操作方式在GM-100任务中收集了一个中型数据集,包含超过13,000条轨迹[11][13] - **硬件平台**:采用两款机器人平台进行数据集收集和评估: - Agilex Cobot Magic:类Mobile-Aloha型机器人平台,采用前伸式手臂结构并配备头戴式相机[14] - Dobot Xtrainer:类Aloha型平台,采用内折式手臂结构并提供俯视相机视角[14] - **收集进展**:当前版本中,在Cobot Magic平台上完成了全部100个任务的数据收集,在Xtrainer平台上完成了10个任务的数据收集[16] - **数据分布**:对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐[17] 实验评估与结果 - **基线模型**:为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP和多个视觉-语言-动作模型[18] - **评估指标**: - 成功率:固定尝试次数内成功完成任务的百分比[22] - 部分成功率:任务中成功完成的子任务百分比[22] - 动作预测误差:预测动作与真实动作之间的均方误差和L1损失[22] - **性能结果**: - 在Xtrainer平台的实际场景性能测试中,各模型的平均成功率在1.6%至24.9%之间,平均部分成功率在7.0%至53.9%之间,整体成功率较低,凸显了任务的挑战性[20][22] - 图4和图5展示了在Cobot Magic平台的部分成功率以及各模型在任务层面的归一化均方误差与部分成功率对比[24][26]
普林斯顿近300篇工作的综述,这一领域是如何为具身提供低成本的训练和测试方案的?
具身智能之心· 2026-01-19 08:49
文章核心观点 - 视频生成模型凭借其高保真时空建模能力,正成为破解机器人领域长期存在的物理仿真器保真度局限与语言模型表达瓶颈的核心突破口,为机器人智能化升级提供了全新范式 [1] - 普林斯顿大学与天母大学联合发表的综述论文首次系统梳理了该领域研究现状,构建了“模型基础-核心应用-挑战方向”的完整技术体系与应用框架 [1] 技术基础:视频生成模型的核心架构与分类 - 视频生成模型通过学习时空映射关系实现物理世界高保真建模,其核心架构可分为三大类 [4] - **马尔可夫状态基世界模型**:基于当前状态与动作预测未来状态,传统采用循环神经网络,近年引入Transformer与扩散模型以提升动态预测表达能力,但仍受限于潜在空间建模的抽象性 [7] - **扩散/流匹配视频模型**:当前主流架构,通过迭代去噪过程生成高保真视频,支持文本、图像、动作等多模态条件输入 [8] - **视频联合嵌入预测架构**:通过自监督训练学习潜在空间表征,聚焦高层语义与动态规律,无需大量标注数据即可用于机器人规划,但存在表征坍缩风险 [10] 问题根源:传统方法的核心痛点 - **语言模型表达局限**:纯语言抽象难以捕捉物理世界的精细交互,且无法准确建模时空依赖关系 [5] - **物理仿真器保真度不足**:传统物理引擎依赖简化假设,难以模拟复杂形态的可变形物体,且存在显著的仿真到现实差距,资产构建成本高昂 [5] - **数据与评估成本高**:机器人政策学习需大量专家演示数据,采集耗时耗力;真实世界政策评估需部署物理硬件,硬件与人力成本极高 [5] 机器人领域的四大核心应用场景 - **模仿学习中的低成本数据生成与动作预测**:解决专家演示数据稀缺问题,通过视频生成模型合成大规模训练数据,支持无监督数据扩展 [11] - 数据生成:微调预训练模型生成机器人任务演示视频,包括成功与失败轨迹,以提升政策鲁棒性 [12] - 动作提取:通过模块化方法或端到端方法,从生成视频中提取机器人可执行动作 [12] - 跨形态迁移:实现从人类视频到机器人动作的转化,降低跨机器人平台的适配成本 [14] - **强化学习中的动力学与奖励建模**:为强化学习提供高保真环境动态与奖励信号,突破样本效率瓶颈 [15] - 动力学建模:通过动作条件视频生成,精准预测环境对机器人动作的反馈,替代传统物理仿真器 [15] - 奖励建模:利用视频生成分布的条件熵或预测似然度,构建丰富的奖励信号,避免手动设计奖励函数的局限性 [15] - 探索引导:生成多样化视频轨迹,引导机器人探索未见过的场景,提升政策泛化能力 [15] - **政策评估**:替代真实世界与物理仿真的评估方式,降低评估成本并提升可靠性 [16] - 闭环评估:将机器人政策与视频模型闭环运行,通过生成视频预测政策执行效果,无需部署物理硬件 [20] - 多视图增强:结合多相机视角生成,减少幻觉现象,提升评估准确性 [20] - 鲁棒性测试:快速构建分布外场景,评估政策在极端情况下的安全性与稳定性 [18] - **视觉规划**:通过生成任务执行视频,为机器人提供分步行动指南,突破传统规划对精确动力学模型的依赖 [19] - 动作引导规划:生成动作提案并通过视频模型验证效果,结合优化算法筛选最优轨迹 [21] - 无动作规划:直接生成目标导向的视频序列,将帧作为图像子目标,通过逆动力学模型映射为机器人动作 [21] - 任务分解:结合大语言模型将复杂任务拆分为子任务,生成分步视频计划,提升长时程任务的规划能力 [21] 视频模型的评估体系:指标与基准 - **核心评估指标**: - 帧级指标:包括峰值信噪比、结构相似性指数、CLIP相似度、Fréchet Inception距离等,用于评估单帧视觉质量与语义一致性 [21] - 时空指标:包括Fréchet Video Distance、Kernel Video Distance、Fréchet Video Motion Distance等,聚焦视频的时间连贯性与运动合理性 [21] - **关键基准测试**: - 综合基准:WorldModelBench评估指令跟随与物理一致性,EvalCrafter涵盖美学、运动质量等多维度,VBench细分16项精细指标 [21] - 物理常识基准:Physics-IQ测试物理定律理解,PhyGenBench覆盖27种物理规律,VideoPhy聚焦物体交互逻辑,为机器人场景的物理一致性评估提供依据 [21] 核心挑战与未来研究方向 - **幻觉与物理定律违背**:生成视频存在物体消失、形变异常等问题,核心原因是模型缺乏物理常识,未来需融入物理先验或结合物理仿真器优化生成轨迹 [22] - **不确定性量化**:模型无法表达预测置信度,限制安全关键场景应用,需开发时空密集型不确定性估计方法 [23] - **指令跟随能力不足**:难以精准执行复杂文本指令,需通过多模态条件融合、指令微调等方式提升任务理解能力 [24] - **评估体系缺失**:缺乏机器人场景专用评估指标,需构建以机器人为中心的基准,覆盖物理一致性、预测准确性等核心维度 [25] - **安全内容生成**:许多视频模型缺乏足够的安全护栏,易生成不安全内容,需设计通用安全护栏机制并开发更全面的安全基准 [26] - **安全机器人交互**:机器人需兼顾物理与语义安全,需将潜在空间安全过滤扩展至视频世界模型,提升分布外场景的风险抵御能力 [27] - **动作估计精度不足**:从生成视频中提取的动作难以满足精细操纵任务需求,需优化潜在动作模型的可解释性并采用半监督训练提升泛化能力 [28] - **长视频生成能力有限**:现有模型仅能生成数秒视频,无法覆盖分钟级机器人任务,需开发高效记忆机制与分层生成架构以扩展上下文窗口 [29] - **数据整理成本高昂**:高质量标注数据稀缺,需优化数据筛选与标注流程,利用新视角合成技术降低成本,同时融入失败数据提升模型鲁棒性 [30] - **训练与推理成本高**:模型参数规模大,训练与推理耗资源,难以部署于边缘设备,需通过空间时间压缩、模型蒸馏、量化等技术提升效率 [31] 从技术突破到规模化落地 - 视频生成模型通过高保真时空建模,解决了机器人领域数据稀缺、仿真不准、评估昂贵等核心痛点 [32] - 未来落地的关键在于:平衡性能与成本,突破长视频生成、物理一致性等技术瓶颈;构建机器人专用的评估体系与安全机制;推动跨平台迁移与实时部署能力提升 [32] - 该技术的成熟将加速通用自主机器人的发展,尤其在工业操纵、服务机器人等安全关键场景实现规模化应用 [32]
如果说今年哪个方向最受欢迎,一定是VLA+RL
具身智能之心· 2026-01-19 08:49
行业技术趋势:VLA+RL成为具身智能核心方向 - 视觉语言动作模型与强化学习结合是当前最受欢迎的研究方向,为机器人带来了新的交互范式[1] - VLA模型使机器人能通过视觉感知和理解语言指令直接生成动作,降低了任务描述和系统设计的门槛,能应对更开放复杂的场景[1] - 当前研究趋势正从单纯训练VLA模型转向以VLA作为策略表示,并结合强化学习进行微调和强化[5] - VLA+RL正在成为具身智能领域的默认技术组合,而非可选项[8] VLA模型的优势与核心挑战 - VLA模型的核心优势在于其通过视觉感知环境和理解语言指令来直接生成动作序列的能力[1] - 纯模仿学习的VLA本质是在复制数据分布,一旦环境、物体或初始状态发生变化就容易失败,许多失败由连续动作误差累积导致[4] - 在真实机器人系统中,VLA模型面临执行不稳定、对初始状态敏感以及长时序任务易失败等问题[2] - 其核心原因在于模型缺乏基于环境反馈的持续修正能力[2] 强化学习在VLA中的价值与作用 - 强化学习为VLA提供了从理解走向执行优化的关键机制[2] - 通过引入奖励或价值信号,强化学习能在保持VLA感知与语言能力的同时,对动作策略进行闭环优化[2] - 强化学习弥补了模仿学习在分布外状态和误差累积上的不足[2] - 强化学习提供闭环优化能力,利用环境反馈修正动作,并用价值或奖励信号约束长时序行为[4] VLA+RL的主要技术方案与融合方式 - 方法上主要分为在线强化学习、离线强化学习以及测试时优化三种方案[6] - 具体融合方式包括使用强化学习进行微调、奖励塑形以及引入评论家网络等[23] - 研究热点包括利用离线强化学习提升样本效率、采用层级强化学习约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向[5] - 强化学习在VLA中的角色包括微调、奖励设计以及评论家引入等[19] 当前研究瓶颈与创新方向 - VLA+RL是一个系统性问题,而非单点技巧,许多研究者缺乏真机与强化学习结合的系统经验[10] - 领域内存在大量未解决的研究难点,是发表论文的良好方向[8] - 关键挑战包括奖励函数设计、选择离线还是在线强化学习、优化末端执行还是整条轨迹,以及解决加入强化学习后系统更不稳定的问题[12] - 可探索的创新方向包括长时任务与记忆机制、VLA表征学习与泛化等[24][25][26] 行业人才培养与技能需求 - 行业需要具备从理论到实践全链路能力的研究者,包括掌握VLA模型与强化学习理论基础、仿真环境搭建、真机部署、实验设计与论文撰写[31] - 独立学术研究能力是核心,包括论文写作、文献阅读、创新点提炼等研究者必备技能[31] - 硬件方面,推理要求4090以上算力,训练算力建议自备4卡4090[33] - 研究者需要一定的PyTorch和Python基础,能够自行修改代码[33]
南京大学智能科学与技术学院2026具身智能本科生冬令营正式开启!
具身智能之心· 2026-01-19 08:49
行业趋势与活动背景 - 具身智能正成为人工智能最具前景、最具突破性的方向之一,其能力边界正在被重新塑造,涵盖从机器人感知、建图、决策到真实世界中的自主导航与灵巧操作 [2] 活动核心亮点 - 提供真实科研闭环体验,参与者将亲手在智能机器人平台上完成任务,体验真正的具身智能系统 [5][6] - 由学院教师团队进行高密度前沿学习,通过紧凑而系统的讲座构建知识结构 [7][8] - 与苏州市具身智能机器人综合创新中心合作,提供工业级机器人平台、传感器系统与实验环境,直面真实工程问题 [9][10] - 邀请行业领先的具身智能企业参与交流,了解前沿技术的产业落地 [11][12] - 设置导师面对面交流环节,为参与者答疑学术规划、科研方向与项目路径 [13][14] 活动日程安排 - 活动为期四天,从2026年2月4日至7日 [2] - 日程包含开营介绍、系列前沿讲座、企业讲座、仿真实验、实机实验、论文研讨及分组展示与交流环节 [18] 目标参与群体与要求 - 活动面向全国高校本科生招募 [15] - 参与者需具备基础编程能力(如Python/C++)、使用过深度学习框架(如pytorch)、对机器人、AI、具身智能有浓厚兴趣,有科研或工程实践经验者优先录取 [15] 相关产业生态 - 存在一个具身智能交流社区“具身智能之心知识星球”,被描述为国内最大的具身技术和产业分享平台,拥有近3000名同学和200家机构参与交流 [20]
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题
具身智能之心· 2026-01-19 08:49
文章核心观点 - 提出了一种名为Observation-Centric VLA(OC-VLA)的新范式,旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系,从而实现视觉观察与动作预测在相同空间参考系中的对齐 [3][5] - 该范式被证明能显著提升模型在多种机器人任务中的成功率,并增强其在视角变化和不同硬件配置下的泛化能力与鲁棒性 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型,而机器人控制信号则在机器人基坐标系中定义,这种感知与动作空间的不一致阻碍了策略的有效学习和迁移 [2] - 机器人数据采集视角多样且硬件配置异构,要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作,这在大规模预训练中引入了学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中,从而缓解感知与动作之间的错位问题 [5] - 训练阶段:利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系,并在此坐标系下计算机械臂动作 [6][7] - 推理阶段:将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系,以用于实际控制 [8] - 该方法完全模块化,不依赖特定网络结构,可无缝集成至主流的离散或连续动作生成式策略模型,且不增加额外计算成本 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试,使用包含超过4万条独特轨迹、从30万个随机相机视角渲染的数据集 [13] - 实验结果显示,使用在相机坐标系中定义的动作作为预测目标能显著提高任务成功率,在离散动作空间模型中成功率提升约14% [15] - 具体数据:在连续动作空间下,使用相机坐标系(Camera)预测的平均成功率为53.2%,高于机器人坐标系(Robot)的45.2%;在离散动作空间下,相机坐标系预测的成功率为52.4%,高于机器人坐标系的38.6% [16] 真实世界Franka机械臂实验 - 使用配备三台RealSense D435i相机的Franka机械臂平台,在固定相机、相机位置扰动及零样本相机位置等设置下进行测试 [17][19] - 在固定相机条件下,OC-VLA(Cam Base)的平均成功率为77.5%,高于基线(Robot Base)的66.3% [20] - 在相机位置扰动条件下,OC-VLA的平均成功率为73.8%,高于基线的61.3% [20] - 在包含15个任务的少样本评估中,OC-VLA(Camera Base)的平均成功率为68.0%,优于其他对比方法,如OpenVLA-OFT的63.3%和Robot Base的58.0% [20] - 实验表明OC-VLA不仅提升了任务成功率,也显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中,通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力,使其在视角变化场景中表现更稳健 [23]
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题,以观测视角为中心的VLA范式
具身智能之心· 2026-01-18 17:33
文章核心观点 - 提出了一种名为Observation-Centric VLA(OC-VLA)的新范式,旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系,从而实现视觉观察与动作预测在相同空间参考系中的对齐 [5] - 实验结果表明,OC-VLA能显著提升任务成功率和模型在不同相机视角下的泛化能力,且该方法模块化,无需增加额外计算成本 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型,而机器人控制信号则在机器人基坐标系中定义,这种空间错位阻碍了策略的有效学习和模型迁移 [2] - 机器人数据采集视角多样且硬件配置异构,要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作,这在大规模预训练中会引入学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中 [5] - 训练阶段:利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系,并在此坐标系下计算机械臂动作 [6][7] - 推理阶段:将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系,用于最终控制 [8] - 该方法完全模块化,可无缝集成至当前主流的离散token式或连续动作生成式策略模型中 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试,使用了一个包含超过4万条独特轨迹、30万个随机相机视角的数据集 [13] - 使用在相机坐标系中定义的动作作为预测目标,能显著提高任务成功率,在离散动作空间模型中成功率提高了约14% [15] - 具体数据:在连续动作空间下,使用机器人坐标系(Robot)预测的平均成功率为45.2%,而使用相机坐标系(Camera)预测的平均成功率为53.2% [16] 真实机器人平台实验 - 使用配备三台相机的Franka机械臂平台进行实验,采集了包含15个任务和8个任务的两组数据集,以评估小样本和视角扰动下的性能 [17][19] - 在固定相机位置设置下,OC-VLA(Cam Base)的平均成功率为77.5%,高于基线方法(Robot Base)的66.3% [20] - 在相机位置扰动设置下,OC-VLA的平均成功率为73.8%,高于基线方法的61.3% [20] - 实验表明OC-VLA显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中,通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力 [23]
背后的操盘者,具身的产品经理都在做哪些事情?
具身智能之心· 2026-01-17 11:33
行业现状与发展趋势 - 2022年,少数开拓者已开始探索具身机器人的数据、算法和推理,算法和硬件水平持续提升,应用场景逐渐清晰[1] - 机器人本体稳定性和实用性提升,形态从简单的双足、四足向更精美的人形和移动操作机器人演进,场景决定形态[3] - 强大的供应链使落地成本不断下降,与具身智能相关的企业已近300家,各类优秀团队参与并改变产业和技术格局[3][4] - 数据采集方案从仿真优先向UMI和更拟人方案演变,各公司致力于实现数据的规模化与易用性,任务差异化对数据生产方式提出要求[5] - 相比传统机器人,具身领域算法更偏向AI,涵盖VLA、VLN、交互大模型,从强化学习到世界模型,基于模仿学习和强化学习的方案使模型泛化能力增强[7] 行业发展面临的挑战 - 行业高速发展同时,在市场调研、产品设计、数据与成本、盈利模式等多个方向存在持续性问题[8] - 具身智能是系统工程,涉及市场调研、产品定义、系统工程管理、方案选择、人力与时间投入、仿真数据使用时机等,战略决策影响后期利润空间[9] - 完成产品迭代需硬件系统、软件系统和数据飞轮,硬件设计需团队熟悉结构、传感系统及执行动作,软件需选择合适的中间件和算法模块,数据平台对模型迭代至关重要[9] - 产品定位、定价、与竞品区分、商业模式设计、核心优势与客户识别是企业生存必须做好的功课[10] - 行业缺乏完整指南,各参与者均在摸索[11] 市场参与者与需求洞察 - 算法开发者希望了解具身智能上下游、开发流程、场景和商业化全貌,以明确开发目的与成本[12] - 传统行业从业者希望转入具身智能领域,但缺乏切入路径和系统教程,自行探索成本高[13] - 投资者关注市场需求、创业团队潜力及盈利模式的可靠性,需结合产业和技术知识进行判断[14] - 在校学生期望快速加入具身智能赛道,希望有导师带领入门[15] 课程内容与结构 - 课程旨在提供完整的具身智能知识体系,覆盖行业本质、市场分析、产品策划、开发落地、技术理解及职业规划,帮助构建核心认知框架[16][19] - 课程适合具身领域算法与开发人员、投资人、技术高管、政府相关部门成员及希望转入该领域的初学者[17] - 课程大纲分为六个核心模块:行业入门与产品基础、市场分析与商业设计、产品策划与设计、产品开发与生命周期管理、核心技术、产品职业规划与实践[18] - 具体课程内容包括但不限于:产品定义与行业背景、产业链图谱、市场规模与竞争格局、商业模式设计、硬件/软件系统分解、核心技术(如AI算法、具身大模型、数据仿真)、核心零部件(如关节模组、灵巧手、电池、芯片)、产品开发全流程及职业发展路径[18] 课程附加价值与主讲人背景 - 课程提供高质量社群,学员可与来自全球顶尖学府、各大厂及明星创业公司的同行交流成长[19] - 主讲人毕业于QS50强名校,曾担任两家世界500强企业机器人板块产品线负责人,拥有机器人及具身智能领域十年产品与研发管理实战经验,具备从0到1到100的机器人量产经验[20]