具身智能之心
搜索文档
视觉VLA看不到的“那堵墙”,被发现了......
具身智能之心· 2026-01-27 15:24
行业背景与核心痛点 - 具身智能行业正从概念阶段转向追求实际生产力 但机器人在真实物理世界的3D空间感知存在显著缺陷[3] - 纯视觉方案依赖RGB图像的纹理和色彩信息 在透明、反光、极端光照等日常场景中会遭遇“感知失明” 导致空间感知失效[2][3] - 透明物体(如玻璃、亚克力)因无自身固定纹理 其表面信息完全依赖环境反射与折射 使纯视觉方案难以定位和抓取 如同面对“视觉幽灵”[5][6] - 反光表面(如金属器皿、镜子)和极端光照(强光直射、暗光环境)会摧毁纯视觉依赖的纹理特征 使其无法有效感知[7][8] - RGB-D相机提供了深度信息 是目前理想的3D感知模态 但在透明、反光、低纹理表面及极端光照下 其基于双目立体匹配的深度计算会失效 导致深度图出现大量“黑洞”和数据缺失[9][13][14] - 硬件层面存在物理局限:深度缺失、测量噪声以及高端传感器成本高昂 这些无法解决的感知缺陷需要依靠算法来弥补[14][16] 解决方案:LingBot-Depth模型 - 蚂蚁集团旗下灵波科技开源了高精度空间感知模型LingBot-Depth 旨在不更换硬件的前提下提升复杂场景的深度输出质量 为机器人提供看清三维空间的“眼睛”[17][20] - 模型核心创新是提出了“掩码深度建模”范式 以及一套可扩展的真实深度数据采集范式[20] - 该方法不将深度相机的缺失数据视为噪声 而是作为反映场景几何模糊性的“自然掩码” 通过RGB与深度的跨模态联合学习 让模型学会用视觉上下文补全空间信息[23] - 模型基于encoder-decoder框架 将学习目标从外观重建转向深度图预测 通过使用海量RGB-深度图像对并刻意遮挡部分深度区域进行训练 使模型学会建立“外观-几何”对应关系[32] - 模型通过ViT学习RGB外观与深度几何的联合表征 既能补全缺失深度 又能提升单目深度估计和立体匹配精度 本质是为RGB-D相机加装“视觉增强模块”[36] 数据规模与构建 - LingBot-Depth提供了千万量级的大规模RGB-D预训练数据 并设计了合成数据与真实数据收集流程[25][26] - 合成数据LingBot Depth-S:通过模拟真实世界主动式RGB-D相机的成像过程 生成带有自然缺陷的逼真深度观测值 从442个室内场景中渲染了100万个合成样本[29] - 真实数据LingBot Depth-R:通过可扩展的RGB-D相机采集系统 收集了200万个场景多样性丰富的真实数据[29] - 结合自制的320万数据及开源数据集补充 模型训练使用的总样本量达到1000万个[30] - 该数据流程为学术界和工业界提供了从数据制作、模型训练到下游应用的完整闭环范式[30] 技术性能与优势 - 在深度补全任务上 在iBims、NYUv2等数据集中超越OMNI-DC、PromptDA等主流方案 在极端条件下RMSE降低40%以上 能精准还原透明与反光表面的深度轮廓[37] - 在单目深度估计任务上 仅用RGB图像就能输出高精度深度图 在10个不同场景的数据集中性能全面超越基于DINOv2预训练的基座模型[39] - 在立体匹配增强任务上 作为FoundationStereo的深度先验 能让立体匹配模型收敛速度提升3倍 最终EPE降低20% 在HAMMER、Booster等难点数据集表现最优[40] - 在极端环境下表现出强鲁棒性:能有效处理透明、强光、暗光及低纹理场景 例如在DIODE户外数据集中RMSE为3.811 远低于同类方案的6.239[43][48] - 在具身抓取应用中 对于原始深度传感器完全失效的透明储物盒 基于LingBot-Depth优化深度训练的模型实现了50%的抓取成功率[45][47] - 模型处理视频时能保持深度时空平滑性 无抖动 远超ZED等高端立体相机[48] - 模型能力不限于抓取 在相机位姿和4D点跟踪等高层空间感知任务上也能提升稳定性与精度[49] 落地应用与兼容性 - 模型支持Intel RealSense、Orbbec Gemini、ZED等主流消费级RGB-D相机 无需改装硬件即可直接接入提升性能[51] - 具备轻量化部署能力:采用BF16混合精度训练 推理时无需复杂后处理 可满足30 FPS的实时性需求 能直接嵌入现有具身VLA模块[51] - 该方案通过算法弥补硬件局限 以更普世的方法让整个领域享受技术红利 验证了深度优化对提升具身操作能力的有效性[52][53]
分层 RL-MPC 框架:让机器人 “懂几何、善接触” 的灵巧操作新范式
具身智能之心· 2026-01-27 11:00
文章核心观点 - 亚利桑那州立大学等团队提出的分层RL-MPC框架,通过引入“接触意图”接口,将高层几何与运动学推理和低层接触动力学执行解耦,成功解决了机器人灵巧操作中数据需求大、虚实迁移难、泛化能力弱的三重挑战,在实验中实现了近100%任务成功率、高达40倍的数据效率提升以及零样本虚实迁移 [2][37] 传统灵巧操作方案的困境 - **端到端视觉运动策略**:需要海量数据学习非光滑接触动力学,长时域任务效率极低;过度依赖模拟动力学模型,虚实迁移差距大;跨物体几何、跨场景泛化能力弱 [3] - **传统模型控制方案**:基于固定运动原语或接触模式规划,扩展性差,难以适配开放环境中多样物体形状;缺乏灵活决策机制,面对扰动易失效 [3] - **简单分层策略**:层级间耦合松散,未形成闭环优化;未明确几何-运动学与动力学的推理边界,导致决策与执行脱节 [3] 分层RL-MPC框架的核心创新:接触意图 - **定义与作用**:接触意图是高层RL的输出和低层MPC的输入,定义为 `(C, T_sub)`,其中 `C` 是物体表面的接触位置集合,`T_sub` 是接触后的物体子目标姿态,它将抽象操作决策转化为结构化信息,使RL无需处理复杂接触力计算,MPC无需猜测高层意图 [6] - **接触位置选择**:`C` 中的位置从物体点云下采样的关键点中筛选,确保与物体几何形状精准适配 [6] - **子目标设计**:`T_sub` 是朝向最终目标的关键中间态,这种分步设计大幅降低了长时域任务的学习难度 [6] 高层RL策略的设计 - **观测空间设计**:采用“几何+目标+碰撞”三组件设计,所有信息基于物体坐标系构建 [7] - **几何组件**:从物体点云均匀下采样N个关键点,既近似物体几何,又作为接触位置的离散候选集 [7] - **目标组件**:定义物体坐标系下的关键点目标流,让策略直接感知每个点需要移动多少 [7] - **碰撞组件**:计算每个关键点到环境的最小欧氏距离,用于标记无效接触位置 [7] - **间接定义子目标**:通过预测MPC的权重组合 `(w_p, w_q)` 来间接定义子目标姿态,权重值从离散集合中选择,避免了RL直接探索高维姿态空间,提升了学习效率 [8] - **双分支网络架构**:采用基于PointNet++的几何分支和全局运动学分支,分别处理局部接触点概率分布和宏观任务规划 [9][13] - **训练与奖励**:采用PPO算法训练,奖励函数 `r = r_dense + r_sparse + r_invalid`,兼顾任务进度、最终目标达成和接触可行性惩罚 [11][13] 低层MPC执行的设计 - **接触建模**:采用互补自由接触模型,无需求解复杂的互补约束,就能精准捕捉滚动、滑动、分离等接触模式,计算速度快,满足100Hz重规划需求 [12][16] - **优化目标**:分为运行成本与终端成本,运行成本鼓励末端执行器贴近RL预测的接触位置,终端成本驱动物体在预测时域内达成子目标姿态,双重保障接触意图的实现 [17][22] - **控制频率**:以100Hz高频重规划,仅将第一个控制输入发送给机器人,确保对扰动的快速响应 [12][17] 高层与低层的协同机制 - **多速率闭环**:采用“慢决策、快执行”模式,高层RL每0.2秒(T=20个环境步)预测一次接触意图,低层MPC每0.01秒(100Hz)基于当前状态和固定意图进行重规划,形成决策-执行-反馈闭环 [18] - **协同优势**:保证了高层决策的全局最优性,又通过低层高频重规划抵消扰动与建模误差,使操作在模拟与真实环境中都能保持稳定 [19] 实验性能与结果 - **数据效率**:在几何泛化推箱任务中,框架仅需15K RL决策步(约300K控制步)达到100%成功率,而端到端策略需600K RL决策步才达到92.5%成功率,数据效率提升40倍;在3D重定向任务中,框架在200K RL决策步后成功率达98.75% [26] - **任务成功率**:在模拟环境中,推箱任务对见过字母的成功率达100%,对未见过的字母成功率达97.34%;3D重定向任务成功率达98.75% [20][24] - **任务执行效率**:模拟环境中,推箱任务平均完成步数仅9-11步,3D重定向任务约14步 [28] - **鲁棒性**:在面对外部力、摩擦变异、执行器变异等扰动时,框架成功率保持100%,而端到端策略在执行器变异下成功率降至44.0% [25][29] - **虚实迁移(零样本部署)**:模拟训练的策略直接部署到真实机器人,无需微调 [30] - **几何泛化推箱**:测试的12个字母中,11个达成100%成功率,仅字母“I”因细长形状导致姿态跟踪误差,成功率为70% [30] - **物体3D重定向**:25次独立试验全部成功,成功率100% [30] - **接触模式**:真实场景中涌现出顶面滑动、边缘支点、角点支点三类有效接触模式,证明策略能动态适配 [30] 消融实验验证关键模块 - **移除子目标预测**:推箱任务成功率从100%降至26.56%,证明子目标对长时域操作至关重要 [33] - **观测坐标系不一致**:将目标流改用世界坐标系后,学习完全失效,成功率接近0,证明物体中心表示是几何推理的基础 [33] - **移除碰撞组件**:3D重定向任务成功率从98.75%降至85.94%,策略频繁选择被环境阻挡的无效接触位置 [33] 框架的核心价值与创新启示 - **分层推理重构操作逻辑**:通过接触意图接口解耦几何-运动学与接触动力学推理,结合了RL的决策灵活性与MPC的执行稳定性 [34] - **物体中心表示赋能泛化**:统一的观测设计与双分支架构,让策略摆脱对特定物体形状的依赖,实现跨未知几何的高效泛化 [34] - **打破虚实迁移壁垒**:低层MPC的高频重规划与显式物理建模,降低了对模拟精度的依赖,高层RL仅学习与几何、运动学相关的决策,从而实现零样本虚实迁移 [34] 现存局限与未来方向 - **依赖精准姿态估计**:框架需要准确的物体姿态信息,真实场景中姿态跟踪误差会导致操作失败,未来需探索感知-规划-控制一体化设计 [36] - **多末端执行器扩展性不足**:离散关键点集合导致接触位置选择的组合复杂度随末端执行器数量指数增长,难以适配多指灵巧手,未来需优化接触意图表示 [36] - **模态扩展与效率优化**:当前仅利用视觉与几何信息,未来可融合触觉、力反馈等模态以提升复杂场景适应性,并通过模型轻量化等方式优化框架效率 [36]
AAAI 2026杰出论文奖 | ReconVLA:具身智能领域首次获得
具身智能之心· 2026-01-27 11:00
文章核心观点 - ReconVLA模型获得AAAI最佳论文奖,标志着让智能体在真实世界中“看、想、做”的能力已成为人工智能研究的核心问题之一,这是对具身智能作为通用智能核心范式的社区级认可 [3][5] - 研究核心是抛开参数堆砌,回归操作任务本质,通过重建式隐式视觉定位新范式,解决VLA模型视觉注意力难以稳定聚焦于任务相关目标的关键瓶颈,使机器人做到“看得准、动得稳” [5][11][32][33] 行业意义与认可 - 这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上首次获得AI顶级会议最佳论文的研究工作 [5] - 该奖项释放了清晰而重要的信号,表明具身智能的研究价值得到了顶级学术社区的肯定,可能推动该领域从经验驱动的系统设计迈向更扎实、可扩展的通用智能研究范式 [3][34] 技术瓶颈与现有方案局限 - VLA模型的一个基础但被长期忽视的关键瓶颈是:视觉注意力难以稳定、精准地聚焦于任务相关目标,容易被无关物体或背景干扰 [9] - 已有工作主要通过显式裁剪或检测目标区域、预测目标边界框作为中间输出等方式尝试缓解,但未从根本上改变模型自身的视觉表征与注意力分配机制,提升效果有限 [10][15] ReconVLA模型核心创新 - 提出重建式(Reconstructive)Vision-Language-Action模型,其核心思想是不要求模型显式输出“看哪里”,而是通过“能否重建目标区域”来约束模型必须学会精准关注关键物体 [11][12] - 模型在生成动作表征的同时,需完成一项辅助任务:重建当前时刻所“凝视”的目标区域(Gaze Region),这一过程由轻量级扩散变换器在潜在空间中进行高保真复原 [13] - 该机制通过最小化重建误差,迫使模型在其内部视觉表示中编码关于目标物体的精细语义与结构信息,从而在注意力层面实现隐式而稳定的对齐,更接近人类的视觉凝视行为 [13][14] 模型框架与方法 - 整体框架由两个协同分支组成:1) 动作预测分支:以多视角图像、自然语言指令与机器人本体状态为输入,生成动作token驱动机器人;2) 视觉重建分支:利用冻结的视觉tokenizer将Gaze region编码为潜在token,主干网络输出重建token引导扩散去噪过程复原目标区域视觉表示 [17] - 重建损失在像素与潜在空间层面为模型提供了隐式监督,使视觉表征与动作决策在训练过程中紧密耦合 [18] - 构建了大规模机器人预训练数据集(超过10万条交互轨迹,约200万张图像),通过自动化标注生成Gaze region用于重建监督,该预训练显著提升了模型在视觉重建、隐式Grounding及跨场景泛化的能力 [21][25][31] 实验结果与性能 - 在CALVIN仿真基准上,ReconVLA在长时序任务中显著优于现有方法 [22] - 在ABC→D泛化任务中,平均完成长度达到3.95,全面领先同期所有对比方法;在ABCD→D长程任务中,平均完成长度为4.23,完整任务成功率达70.5% [23][26] - 在极具挑战的长程任务“stack block”上,方法成功率达到79.5%,远高于Baseline的59.3% [23] - 在真实机器人实验中,基于六自由度机械臂测试叠碗、放水果等任务,ReconVLA在所有任务上均显著优于OpenVLA与PD-VLA,并在未见物体条件下仍保持40%以上的成功率 [27] 消融实验与机制分析 - 对比Explicit Grounding (EG)和COT Grounding (CG),ReconVLA采用的隐式Grounding (IG)在CALVIN上获得了远高于前两者的成功率,表明仅用精细化的目标区域作为隐式监督可以实现更精确的注意力、更高的任务成功率以及更简单的模型架构 [28] - 消融实验表明:1) 全图重建仍优于仅有动作监督的基线,但视觉冗余使其在未知环境下效果受限;2) 重建目标区域(Gaze region)具有显著效果,使模型专注于目标物体,避免被无关背景干扰;3) 大规模预训练显著提升了模型在视觉重建、隐式Grounding及跨场景泛化的能力 [29][30][31]
国内首篇!融合语言模型的多模态触觉传感器
具身智能之心· 2026-01-26 11:42
文章核心观点 - 清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,受鸽子感知系统启发,研发出仿生多模态触觉传感器SuperTac,并构建了8.5B参数的触觉语言模型DOVE,实现了机器人触觉信号从底层物理感知到高层语义推理的突破,标志着机器人触觉感知向“人类水平”迈出关键一步 [1][2] 仿生逻辑与硬件设计 - 传感器SuperTac的硬件设计灵感来源于鸽子复杂的感知系统,特别是其多光谱视觉和非成像感知能力 [6][7] - 集成了小型化多光谱成像模块,覆盖紫外(390 nm)、可见光(400–700 nm)、近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段,使机器人能同时解析热辐射、荧光位移等信息,全面表征物体形状、纹理、颜色和温度 [9][10][11] - 在1 mm厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU),TENG利用接触起电原理识别材质(准确率95%)并实现15 cm内的接近觉感知,IMU捕捉0–60 Hz的振动及碰撞信号 [12] 核心感知机制 - 核心是厚度仅为1 mm的光场调制多层感知皮肤,最外层采用透明PEDOT:PSS导电层,通过丝网印刷在TPU薄膜上形成涡旋线电极设计,提供均匀电学信号以实现高精度材质分类与接近觉探测 [14] - 皮肤包含单向透视反射层作为光学开关,通过调节内外光强差,使传感器能在“触觉模式”下捕捉表面微观纹理与形变,或在外部光源下直接获取物体RGB颜色信息 [16] - 紫外荧光标记层利用在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保能同步捕捉切向滑动与表面细节 [16] 触觉语言大模型DOVE - 构建了8.5B参数的触觉语言模型DOVE,采用分层架构,底层骨干由预训练大语言模型Vicuna构成,提供语言理解与逻辑推理基础 [19] - 并行集成四组预训练的CLIP模型作为模态编码器,将图像化的触觉特征(颜色、纹理、温度、材质信号)提取为深层特征向量 [19] - 通过三阶段训练策略实现从感知到认知的递进:先用CLIP将异构传感器信号转为通用图像表征,再通过投影层将触觉特征对齐至语言模型空间,最后对Vicuna骨干进行微调,使其能结合常识进行复杂推理 [20] 应用场景与能力 - SuperTac与DOVE结合,实现了从“物理感知”向“语义认知”的跨越,赋予机器人类人的具身交互能力 [22] - 在基础识别维度,能实时融合多模态数据,为物体建立全方位“物理画像”,例如将感官印象转化为人类可理解的语言描述(如“黄色,室温,表面具有规律排布的凸起纹理,判定为金属材质”) [24] - 在高层级应用上,能将实时触觉反馈与预训练的大模型常识结合,推断物体潜在功能并做出逻辑决策,如在垃圾分拣任务中,根据触觉特征判定物体为废弃塑料饮料瓶,并基于环保常识建议放入可回收垃圾桶 [24][26] 未来发展方向 - 硬件方面,通过传感器微型化、低功耗芯片及高集成封装,提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题 [28] - 认知层面,依托DOVE模型的模态无关框架,通过优化传感器配置与专用数据集来持续增强系统的泛化能力,为实现自然、高效的人机交互奠定基础 [28]
对话智元机器人首席科学家罗剑岚|未来机器人在真实世界大规模部署将会面临哪些挑战?
具身智能之心· 2026-01-26 11:42
文章核心观点 - 智元具身研究中心于2026年1月初发布了SOP(Scalable Online Post-training)在线后训练系统,该系统旨在解决机器人在真实世界部署中持续学习和进化的难题 [2] - SOP系统通过构建一个将数据回流、模型后训练和策略更新组织成长期可运行工程系统的闭环,使机器人集群能够在真实场景中“随到随学”,实现个体经验的群体高效复用,从而将“规模”转化为“智能” [1][2] - 该系统标志着机器人学习范式从静态离线训练向部署-学习-再部署的动态闭环升级,是机器人从实验室走向复杂真实世界落地的关键一步 [29][32] 一、SOP系统架构与技术突破 - **系统架构**:采用Actor-Learner(执行器-学习器)的分布式异步架构,机器人将错误数据回传至云端共享池,云端算法自动处理后,在几分钟内将更新下发给所有机器人 [6] - **解决的核心技术瓶颈**: - 实现非常低延迟的在线反馈,使机器人犯错后能尽快纠正并反映到模型中 [7] - 保证分布式数据采集的多样性与一致性,稳定获取高质量的多场景数据经验 [7] - 最关键的是保证了模型的通用性不退化,提升单一任务表现时不会牺牲整体泛化能力,成为一个“通用的专才” [7][8] - **系统健壮性**:软件基础设施设计鲁棒、可扩展,增加机器人数量在理论上没有区别,其健壮性依赖于底层数据结构和经验回放池的工程实践 [9][10] 二、跨本体协同与数据采集模式演变 - **跨本体支持**:SOP设计支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能有效隔离单一硬件干扰,提取跨本体的“最大公约数”,即使集群中个别机器人噪声很大,其影响也可被对冲忽略 [11] - **数据采集中心的角色演变**: - 当前阶段,离线数据采集中心是提供预训练模型基础能力的主力,如同汽车的“冷启动” [13] - 随着真实世界部署的机器人数量增多,数据大头将来自真实场景回流的数据,预训练模型会因此变得越来越强 [14] - 专门模拟真实操作的“素材厂”形态会逐渐减少,真实世界将成为最大的数据采集厂 [15][16] 三、规模化部署、商业场景与生态布局 - **规模化部署规划**:公司计划在2026年于真实世界大规模部署通用机器人,规模将比当前论文中使用的几十台机器人提升几个数量级,目标是在上海罗森便利店和超市等场景看到机器人真正干活 [17][26][28] - **商业模式演进**:SOP将推动商业模式从一次性出售硬件,转向软硬件一体的持续服务,类似于自动驾驶通过软件更新持续提升体验 [21] - **场景落地梯度**: - **工业制造**:对成功率、节拍和鲁棒性要求极高,但场景结构化、边界清晰,是短期最易落地且能明确产生商业价值的场景 [22][23] - **商业服务(如商超)**:场景更开放,长尾任务多,但任务风险可控,对性能要求不如工业场景苛刻,持续学习是必要措施 [21][22] - **家庭场景**:落地会更慢,需解决数据隐私、硬件可靠性、成本等问题,将遵循从可控任务集开始逐步扩展的路径 [22][31] - **生态开放策略**:公司坚持生态开放路线,愿意开放SOP关键模块和接口,与行业伙伴共建场景、定义任务规范,旨在构建一个开放的多机器人本体均可接入的在线学习生态 [25] 四、行业意义与未来展望 - **与Gen-0的关联**:Generalist AI的Gen-0证明了大规模真实机器人数据能推动模型通用化,而SOP则解决了如何在真实部署中构建可持续进化的工程系统,二者关注点不同但互补,SOP为国内公司参与通用具身智能竞争提供了结构性条件 [19] - **行业共识与趋势**:2026年行业共识认为,通用性已非主要瓶颈,关键在于部署中任务集的熟练度和可靠性,机器人需从“会做很多事但做得不好”走向“把事情做好并落地” [31][32] - **SOP的长期价值**:SOP让部署不再是技术迭代的终点,而是更大规模智能学习的起点,通过“多机并行采集-云端集中训练-参数即时回流”的闭环,有望将机器人从“性能固定的标品”转变为“持续成长的生命体” [32]
别再想靠“demo”糊弄,NVIDIA联合光轮智能正式开启具身评测驱动的时代!
具身智能之心· 2026-01-26 09:04
文章核心观点 - 具身智能行业正从研究走向工程落地,但缺乏统一、可规模化、可复现的评测体系已成为最大系统性风险,行业亟需从依赖“经验”和“直觉”转向“评测驱动” [2] - 仿真评测是解决真机评测无法规模化问题的唯一可行路径,而行业当前缺失的是一套面向工业级决策的评测基础设施 [13][21] - NVIDIA与光轮智能联合推出的开源评测体系Isaac Lab-Arena及其上构建的RoboFinals平台,旨在建立规模化的机器人评测基础设施,标志着具身领域迈入评测驱动的新阶段 [23][77] 行业现状与挑战 - 模型能力增长远超现有测试基准的边界,行业缺乏测量模型真实能力的“尺子”,研发决策依赖“经验”和“直觉” [2] - 行业展示的“完美”动作背后存在“过拟合”问题,机器人缺乏全面泛化能力,在场景变化时可能“手足无措” [4][5] - 当前评测存在诸多局限:专做1-2个场景、测试案例少、缺乏边界测试标准、测试场景不够规模化、测试要求与标准不统一 [6] - 真机评测在成本、周期、硬件稳定性与安全风险等因素上,无法支持大规模、并行、可重复的评测流程,结构上不可能规模化 [10][12] 现有评测基准的不足 - 现有广泛使用的具身仿真benchmark(如LIBERO、BEHAVIOR、RoboCasa)任务规模有限,场景变化受控,更多用于算法验证而非能力上限测量 [16][18] - 学术级benchmark普遍存在问题:任务与场景规模不足、忽略策略在边界条件下的失败模式、各自维护独立环境导致结果难以统一对比 [20] - 现有评测更像是“验证实验”,而非真正意义上的“能力测量”,无法回答模型在真实世界中的稳定工作能力及边界等关键工程问题 [20] 解决方案:工业级评测基础设施 - 仿真不是备选方案,而是具身评测唯一可行的路径 [13] - 行业真正需要的是一套能够面向工业级决策、统一和可规模化、确定性的具身评测基础设施 [21] - 工业级评测基础设施的目标是:测量模型在复杂真实世界中的能力边界;支持跨团队、跨版本、跨时间的工程级可比评测;为下一轮数据生成与模型设计提供明确反馈信号 [22] NVIDIA Isaac Lab-Arena 的核心创新 - Arena将评测从“写死的脚本”升级为可组合、可扩展的模块化系统,一个评测环境由物体、场景、任务、本体等模块按需组合、即时生成 [27] - 引入Affordance(可供性)作为中间抽象层,使任务绑定“可交互语义”而非具体资产,实现了评测体系跨物体、跨场景、跨本体的扩展能力 [28] - 将任务多样化本身工程化,同一任务定义可系统性地替换不同对象、机器人本体和环境结构,无需重写评测逻辑,能系统性覆盖整个任务分布以观察泛化边界 [30][31][37] - 设计为策略无关(policy-agnostic)的评测框架,不绑定任何特定策略或模型形态,配合并行能力与固定随机种子,使不同模型的结果可被稳定对比分析,类似CI工程流程 [34] - 评测与示教采集、数据生成、后训练过程形成闭环,其输出是可操作的工程信号,而非孤立的排行榜 [38][39] - 定位为开源、可扩展的评测底座,希望不同团队能在同一核心上共建评测生态,避免“各自为政” [41] 光轮智能的角色与RoboFinals平台 - 光轮智能具备全栈自研仿真能力,覆盖从底层物理求解(Solver)、面向交互的SimReady资产生产、框架层到应用层的完整工程链路,与Arena目标形成端到端能力对齐 [51][55] - 光轮智能长期服务全球主要具身智能团队,深度理解真实评测需求与失败模式,能将NVIDIA的评测框架延伸到真实工业使用场景,充当“工程放大器” [56] - 基于Isaac Lab-Arena,光轮智能构建并开源了RoboFinals工业级仿真评测平台,提供超过250个可直接运行的评测任务,覆盖家居与工业等核心场景 [62][64] - RoboFinals作为“工业级尺子”同时覆盖三层关键维度:支持人形机器人、机械臂等多类本体;覆盖从家居到工业的多样化场景;覆盖操控、移动等核心能力任务 [66][68] - RoboFinals已被通义千问等多家领先的模型团队采用,嵌入其内部研发流程提供持续评测信号 [71] - RoboFinals的评测任务已被纳入Hugging Face LeRobot生态,可被全球1300万开发者直接调用,从工具转变为基础设施 [73]
快来围观机器人上班!RoCo Challenge @ AAAI 2026 线下赛直播开启!
具身智能之心· 2026-01-25 12:26
赛事概况与主办方 - 赛事名为RoCo Challenge @ AAAI 2026,全称为“面向以人为中心制造的机器人协同装配”挑战赛 [2] - 赛事主要由南洋理工大学和新加坡科技研究局主办 [2] - 赛事核心任务是齿轮箱装配,旨在模拟人机协作中工作空间的动态变化 [2] 赛事核心目标与评估场景 - 赛事聚焦工业制造领域的机器人装配,要求机器人能高质量操作零部件、理解人类装配进度并从人为错误中恢复 [2] - 基准重点评估三类核心场景:从零开始完整装配、从部分完成状态续接装配、以及检测并修复类人错误后继续装配 [2] - 这些场景综合评估机器人在真实生产环境中的自适应协作、状态理解和具备错误意识的自主性等关键能力 [2] 参赛队伍与晋级情况 - 经过线上赛道角逐,共有**6支**队伍晋级实体赛阶段 [2] - 晋级队伍包括来自新加坡理工学院、光州科学技术院、清华大学、北京航空航天大学、HiDream.ai以及新加坡国立大学的团队 [5] 线下赛事安排与直播信息 - 线下实体赛将于**2026年1月24日至25日**举行 [5] - 决赛直播将于**1月25日13:30**开始,通过中英双语在两个平台进行 [5] - 中文直播平台为小红书,账号为@PINE_Lab_NTU;英文直播平台为YouTube,账号为@Pine-wn4gh [5][7] - 赛事官方网站为 https://rocochallenge.github.io/RoCo2026,联系邮箱为 rocochallenge@gmail.com [7]
人形机器人成本相差近3倍,国内的供应链正在吊打海外
具身智能之心· 2026-01-25 11:00
中国供应链在人形机器人领域的成本优势 - 2025年当前阶段,依托中国供应链的单台人形机器人物料成本约为4.6万美元,而完全采用非中国供应链的成本将飙升至13.1万美元,差价接近3倍[2] - 摩根士丹利预计,到2034年全球年销量突破百万台时,中国供应链的成本将进一步降至1.6万美元,性价比优势将持续扩大[2] 核心部件的成本构成与差价 - 执行器(Actuator)在中国供应链的成本为2.2万美元,非中国供应链为5.8万美元[3] - 灵巧手(Dexterous hand)在中国供应链的成本为1.5万美元,非中国供应链为4.7万美元[4] - 足部(Feet)在中国供应链的成本为0.4万美元,非中国供应链为1.6万美元[4] - 视觉系统(Vision)在中国供应链的成本为0.4万美元,非中国供应链为0.5万美元[4] - 芯片与软件(Chip+Software)在中国供应链的成本为3万美元,非中国供应链为7万美元[4] 中国企业在全球人形机器人产业的主导地位 - 2024年全球共发布51种人形机器人,其中35台来自中国企业[9] - 2025年全球发布46台人形机器人,中国企业贡献了28台[9] - 国内涌现出一批具备技术实力的企业,包括优必选、宇树科技、银河通用机器人、小鹏机器人、乐聚机器人等,在技术落地与供应链整合层面走在全球前列[8]
VLA任务的成本已经越来越低了~
具身智能之心· 2026-01-24 09:05
行业趋势:具身智能与VLA任务硬件成本快速下降 - 用于VLA任务的机械臂价格在过去两年内急剧下降,从2年前的单价30,000元以上,降至1年前的15,000元左右,目前进一步降至5,000元以下 [1][2] - 低成本机械臂(如5,000元以下产品)的出现,使得实现π0、π0.5等各类VLA任务的门槛显著降低 [2] 市场痛点:初学者进入VLA领域面临多重障碍 - 尽管硬件成本下降,但初学者在复现VLA任务时仍面临“成本太高”的挑战,开源低成本机械臂存在调试困难的问题 [3] - 打通数据采集、VLA模型、训练优化与部署的全流程对初学者而言非常困难,其中涉及许多“trick”,导致大量时间浪费在“踩坑”上 [4][6] - 即使拥有真机硬件,许多学习者仍因技术更新快、缺乏有效指导而不知如何上手使用 [9] 解决方案:推出面向实战的VLA系统课程 - 有平台基于SO-100机械臂和LeRobot框架,复现了ACT、GR00T、π0、π0.5等主流VLA方法,旨在解决缺乏真机、真机昂贵及上手困难的问题 [8] - 该平台联合业内专家开发了国内首个《面向实战与求职的VLA小班课》,课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、模型评测与部署、仿真、真机实验及产业讲解等 [9][14] - 课程被描述为目前该平台最大、最完整的课程,采用软硬结合的方式,旨在帮助学习者更有效地掌握VLA技术 [15] 课程价值主张:提升技能与求职竞争力 - 课程项目经验可直接写入简历,掌握的“trick”可作为面试答案,核心价值在于为学习者节省大量自行摸索和“踩坑”的时间 [12] - 课程面向多类人群,包括具身领域求职者、VLA入门进阶者、相关专业学生以及希望从传统CV、机器人等领域转行的人员 [26] - 完成课程后,学习者预期能对具身产业有清晰认识,简历上获得足够项目支撑,并达到具备1-2年以上经验的算法工程师水平 [32] 课程配套与讲师资质 - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂),硬件直接发货给学员 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] 课程实施细节 - 课程已正式开课,采用录播形式,购买后2年内支持反复观看,并提供VIP群答疑服务 [17][27] - 课程对学员的硬件配置提出建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器资源 [26] - 学员需具备一定的Python和PyTorch基础 [26]
Sunday的ACT-1分享!未使用任何机器人本体数据训练的VLA,解决超长时程任务
具身智能之心· 2026-01-24 09:05
文章核心观点 - 公司Sunday通过其全栈技术方案,特别是“技能采集手套”和“技能转换系统”,有效解决了机器人领域的数据瓶颈问题,实现了无需机器人本体数据即可训练高性能模型,其数据转换成功率高达90% [12] - 公司基于上述基础设施训练出的首个基础模型ACT-1,在超长时序任务、零样本环境泛化及灵巧操作等多个前沿领域取得了快速且显著的进展 [5][15][21][26] 公司技术方案与数据策略 - 公司认为机器人行业发展的核心瓶颈是数据,缺乏互联网规模的真实世界操作数据语料库 [6] - 公司提出“具身失配”是数据问题的关键,并致力于使机器人形态与人体一致,以便利用全球80亿人口的日常活动数据 [7] - 公司开发了“技能采集手套”,其与机器人手具有完全相同的几何结构和传感器布局,彻底消除了数据转换断层 [11] - 公司开发了“技能转换系统”,能够对齐运动学和视觉的原始观测数据,消除人类特征,将手套数据转换为机器人数据的成功率高达90% [12] - 公司构建了核心基础设施,包括技能采集手套、技能转换系统及机器人Memo,耗时超过一年 [15] - 截至2025年底,公司的数据采集库已积累了约1000万个示例,全美有2000台数据采集手在进行采集 [8] 机器人硬件设计 - 机器人Memo采用升降设计,最高可达2.1米,以兼容不同身高采集员及高处物品操作 [30] - 机械手为4自由度的三指设计,手臂为7自由度 [30] - 手部设计通过寻找“黄金平衡点”,扩大了可抓取物体范围,实现了可靠的工具使用能力,并兼容日常物品 [11] - 硬件采用刚性和弹性聚合物混合材料,兼顾坚固性与安全性,软质外层有多种颜色可选 [31] - 机器人设计具备柔顺性且符合被动安全标准,断电也能保持姿态稳定 [32] - 充电1小时可执行4小时任务 [31] ACT-1模型能力展示 - **超长时序移动操作**:在单次任务中,针对21种不同物体完成33种独特操作,共计68次灵巧交互,总移动距离超过130英尺(约40米) [20] - **零样本泛化至陌生家庭环境**:模型无需针对特定环境训练,通过引入环境的3D地图作为输入约束,学会解读地图,从而能在全新的Airbnb房源中执行清理餐桌等任务 [21][22] - **推进灵巧性前沿**:展示了叠袜子与操作家用浓缩咖啡机两项复杂任务,后者需要毫米级精度、双手协调及产生高扭矩 [26] - **模型是首个在单一端到端模型中,将长时序操作与地图引导导航相结合的基础模型** [22] 执行性能与数据采集 - 数据采集员(Memory Developer)演示任务的速度约为人类自然速度的一半 [30] - 模型运行速度约为数据采集速度的60-80% [30] - 技能采集手套是采集人类真实生活状态下“真实分布数据”最快、最有效的方法,能捕捉生活的“长尾”场景 [28] 软件与安全 - 机器人内置针对静态和动态障碍物的自动避障功能 [33] - 机器人只执行明确教授过的、实用且安全的任务,每种行为逻辑都受严格的数据审查机制约束 [33] - 公司不依赖用户家庭私密数据训练机器人,用户数据分享需经明确授权 [35]