具身智能之心
搜索文档
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 09:03
文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner,在显著提升推理效率的同时,保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注,但现有VLA模型将视觉输入转换为大量视觉token,导致巨大的计算开销和推理延迟,对车端部署构成挑战 [7] - 现有的视觉token剪枝方法(如引入新投影器、基于注意力或相似性的策略)并非为自动驾驶设计,在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个图像-掩码对,明确定义了对驾驶决策有直接影响的前景区域(如行人、车辆、道路、交通标志等) [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略,并创新性地引入了对抗性前景-背景重建策略,以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面,FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时,FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下,FastDriveVLA的Token FLOPs为5.1T,预填充时间为51 ms/token,解码时间为18 ms/token [27] - 与基于注意力的基线(FastV, SparseVLM)和基于相似性的基线(DivPrune, VisPruner)相比,FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明,ReconPruner能有效保留前景关键信息(如车道、车辆),而其他方法存在漏检或定位不准的问题 [29]
RoboMIND 2.0:面向通用化具身智能的大规模双臂移动操作数据集
具身智能之心· 2026-01-05 09:03
文章核心观点 - 北京人形机器人和北京大学团队发布了RoboMIND 2.0数据集及MIND-2算法框架,旨在解决机器人通用化操作的数据与算法瓶颈 [1] - RoboMIND 2.0是一个大规模、多模态、虚实融合的双臂移动操作数据集,包含310K条轨迹,覆盖6种异构机器人平台、759个复杂任务和129项核心技能 [1][14][16] - 配套提出的MIND-2快慢双系统框架,通过高层视觉语言模型规划与低层视觉语言动作模型执行,结合离线强化学习,在长时域复杂任务中性能超越传统方法 [1][26][31] 机器人操作领域的瓶颈 - **数据集维度单一**:现有数据集多聚焦单一机器人形态或任务类型,缺乏支撑跨场景泛化的大规模双臂协同与移动操作样本 [3][4] - **感知模态残缺**:几乎所有现有数据集仅依赖视觉与基础驱动状态,缺失触觉、力扭矩等关键物理交互反馈,限制了精细操作能力 [5][6] - **长时域任务数据稀缺**:现有数据多为短时域单一操作,缺乏长时域、多步骤的移动操作数据,导致模型在复杂连续决策场景中表现不佳 [7][8] - **虚实迁移成本高**:模拟数据与真实场景存在“虚实鸿沟”,而真实数据采集依赖昂贵硬件与人工监督,数据扩充面临效率与成本瓶颈 [9][10] - **双臂协同数据缺失**:真实世界中超过70%的复杂操作依赖双臂协同,但现有数据集相关高质量数据极度稀缺 [11][12] RoboMIND 2.0数据集核心设计与优势 - **规模与覆盖范围**:包含310K条双臂操作轨迹,累计时长超1000小时,覆盖759个复杂任务、129项核心技能、6种异构机器人平台及1139种不同物体 [14][16] - **数据采集与质量控制**:通过统一遥操作协议采集,设计三阶段质量控制流程过滤12类数据异常,确保数据可靠性 [18][20] - **数据标注**:采用“自动生成+人工修正”方案,利用大语言模型对长时域任务进行语义分割,为每条轨迹提供精细的自然语言注释,形成多模态对齐标注 [22][23] - **虚实融合**:配套发布高保真数字孪生资产与20K条模拟轨迹,模拟与真实任务在结构、物体配置上完全一致,支持虚实混合训练 [24][27] - **多样性设计**:涵盖形态、任务、物体、信息、模拟五大核心维度的多样性,远超现有数据集的单一维度覆盖 [26][28] MIND-2双系统框架设计 - **整体设计理念**:采用分层协作思路,高层慢系统负责语义级任务规划与进度监控,低层快系统负责感知-动作映射与精准执行 [30][31] - **高层规划系统**:基于开源VLM模型InternVL3-8B微调,输入多视角视觉、任务上下文与机器人状态,输出标准化的子任务索引与执行进度 [32][34][40] - **低层执行系统**:是一款视觉-语言-动作模型,采用离线强化学习范式,同时利用数据集中的成功与失败轨迹学习最优策略 [36][41] - **多模态融合**:输入融合多视角RGB-D视觉、语言指令、本体感受及触觉数据,通过统一特征编码器实现信息对齐 [37] - **协同机制**:高层系统监控状态并输出子任务指令,低层系统生成控制动作,子任务完成后自动触发下一个,支持多机器人异构协作 [38][42] 关键实验结果与分析 - **模仿学习算法对比**:3D感知类算法的成功率显著高于2D方法,在需要双臂空间协同的任务中优势明显,如DP3在固定场景任务中成功率可达0.5-0.8 [44][49] - **VLA模型对比**:跨形态模型XR-1在固定基座、移动平台、人形机器人上均保持高成功率,在6种平台任务评估中表现最优 [46][50] - **触觉数据的价值**:融入触觉反馈后,模型在接触密集型任务中成功率显著提升,例如XR-1在“堆叠易滑物体”任务中成功率从0.4提升至0.6 [52][53] - **虚实混合训练效果**:真实与模拟数据按1:5比例混合训练时模型性能最优,部分任务成功率甚至超越纯真实数据训练,能有效降低数据采集成本 [54] - **MIND-2系统性能**:在长时域移动操作任务中,MIND-2成功率显著高于现有VLA模型,其离线强化学习优化版本在超市协作任务中成功率达到0.9 [48][55] - **泛化能力验证**:模型展现出较强的物体级泛化能力,在颜色/形状替换任务中成功率保持0.7-0.8,训练数据的物体多样性是核心保障 [56][60] - **模拟数据集质量**:仅使用模拟数据训练的模型在真实机器人任务中成功率可达0.5-0.7,验证了模拟资产的高保真特性与虚实迁移效果 [57][60]
半年交付5000台!这家公司开启了26年具身领域的首笔融资~
具身智能之心· 2026-01-05 09:03
公司融资与产业认可 - 智身科技完成连续多轮融资,累计金额达数亿元,投资方均为智元机器人、贵安鲲鹏基金、金马游乐、柯力股份、豪鹏科技等产业资本及上下游合作伙伴 [3] - 本轮融资侧重于支持产业升级和技术创新,提高产业整体竞争力,推动技术创新与应用 [4] - 2025年具身智能领域大额融资络绎不绝,智身科技在2026年初官宣的融资是“领域内开年第一融”,且投资方清一色为产业相关资本 [4] 公司发展历程与定位 - 智身科技是一家聚焦具身智能全产业链的企业,以自主研发为核心,覆盖核心部件、整机制造、场景落地全流程 [8] - 公司虽年轻,但在2年时间内完成了产品设计、核心零部件研发和自建工厂 [4] - 公司始于人形与四足机器人领域,与杭州的宇树科技、云深处等公司同处具身智能赛道 [7][8] 产品与技术突破 - 公司实现了从一体化关节模组到整机产品的全栈自研与生产,并建立了规模化量产体系和质量防线 [12] - 已推出两款实现规模化量产的主力机型:钢镚L1和铜锤M1 [13] - 钢镚L1自重15kg,具备IP54防护、20cm越障能力与50%动力冗余,专为安防、巡检等中轻载场景设计 [13] - 铜锤M1自重35kg,水陆两栖,实现近1:1负载比(35kg),拥有IP67防护等级及-20℃~55℃工作温域,适用于电力、消防等重载场景,是行业首款1:1负载自重比的产品 [15][28] - 两款产品均基于自研的一体化关节模组,目前已达成千台级月产能 [17] 量产交付与市场表现 - 公司于2025年6月启动量产,半年内(截至2025年12月底)交付量已达6000台,营收突破1亿元 [4][30] - 2025年12月底完成了第5000台机器人的量产交付 [13] - 量产交付能力将公司推向了“产品交付大厂”的俱乐部 [30] 核心能力与护城河 - 公司的护城河在于能够为行业提供清晰价值的能力,在零部件、本体、硬件、算法软件、解决方案等多个维度上实现了闭环 [18] - 在硬件层面,全栈自研的一体化关节模组已实现系列化、平台化,不仅用于自有机器人,也向生态伙伴开放供应 [19] - 在软件层面,公司推出并全面开源了MATRiX仿真平台,集成场景构建与仿真调试,助力合作伙伴提升开发与落地效率 [21] 2025年关键里程碑 - 2025年4月,推出钢镚L1-W轮足版 [25] - 2025年6月,钢镚L1实现规模化量产 [25] - 2025年9月,发布CHAMP冠军系列一体化关节 [25] - 2025年10月,发布MATRiX仿真平台,推出钢镚L1-EDU智航版 [25] - 2025年,在IROS 2025四足机器人挑战赛中,公司“钢镚L1”携手曼彻斯特大学首次参赛便夺冠 [25] - 2025年12月,铜锤M1正式上新 [28] - 2025年12月,公司联合创始人刘宇龙入选工信部人形机器人与具身智能标准化技术委员会委员名单 [36] 应用场景落地 - 公司通过“技术产品+场景生态”双轮驱动,与合作伙伴共建解决方案,已在安防、巡检、电力运维、服务等多个行业实现价值落地 [36] - 在电力巡检场景,四足机器人在酒泉卫星发射中心承担无人化、智能化电力巡检任务 [33] - 在消防应用场景,打造四足机器人+无人机地空协同作战的消防救援解决方案 [33] - 在商业文娱领域,打造“钢镚大冲关”亲子娱乐项目,落地全国多座商圈,探索科技赋能文娱与科普教育的新商业模式 [34]
王鹤团队最新工作!解决VLA 模型多依赖单视角图像,缺乏精准几何信息的问题
具身智能之心· 2026-01-04 16:58
文章核心观点 - 由Galbot、北京大学、香港大学等团队联合提出的StereoVLA模型,通过融合立体视觉的丰富几何线索,系统性解决了现有视觉-语言-动作模型因依赖单视角RGB图像而缺乏精准空间几何信息、难以满足高精度操纵需求的核心问题,为机器人精准操纵提供了全新解决方案 [1] 现有VLA模型的核心挑战 - **单模态视觉局限**:现有解决方案中,手腕相机视野有限且易遮挡、增加碰撞风险;深度传感器对透明或镜面物体测量噪声大;多相机配置则增加硬件复杂度,且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉虽能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角差异细微导致性能次优 [6] StereoVLA的技术架构 - **特征提取模块**:创新性地融合立体视觉的几何线索与单视角的语义信息 [8] - **几何特征提取**:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,该特征通过注意力混合代价过滤模块捕捉长程空间关联,且无需额外深度估计计算 [12] - **语义特征提取**:利用SigLIP与DINOv2,仅对左视角图像进行处理,获取富含语义的视觉令牌 [12] - **特征融合策略**:通过空间池化统一几何与语义特征的分辨率,采用通道维度拼接方式融合,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **辅助训练任务**:设计交互区域深度估计任务以强化模型细粒度空间感知能力 [8] - **聚焦交互区域**:将采样范围限制在夹持器与目标物体的交互区域,引导模型关注关键空间细节 [12] - **度量深度预测**:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,提升操纵精度并加速模型收敛 [12] - **大规模数据支撑**:构建多维度数据集以解决立体视觉VLA数据稀缺问题 [8] - **合成数据生成**:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对 [12] - **语义增强数据**:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务 [12] - **数据多样性设计**:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化 [12] StereoVLA的性能验证 - **核心任务性能突破**:在真实世界三类关键任务中,StereoVLA显著优于现有基线模型 [10] - **通用操纵任务**:包括常见物体抓取/放置、立方体堆叠等,成功率较基线提升明显 [13] - **条形物体抓取**:针对0°、45°、90°三种方向的条形物体,实现近完美抓取成功率 [13] - **中小尺寸物体抓取**:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比**:在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著 [17] - 相比前+侧面配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁 [17] - 具体数据:在单视角配置下,SpatialVLA-D模型在小/中/大随机化场景成功率分别为24.6%、13.7%、6.8%;在前+手腕配置下,GraspVLA模型成功率分别为71.3%、63.4%、54.8%;在前+侧面配置下,GraspVLA模型成功率分别为82.5%、55.7%、24.1%;而StereoVLA在立体配置下成功率分别为79.3%、71.9%、61.3% [14] - **核心模块消融验证**:通过系统消融实验验证各关键设计的必要性 [15] - **几何特征选择**:过滤后的代价体积表现最优,较相关体积+语义特征的组合,成功率从54.0%提升至77.0% [18] - **语义特征作用**:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [18] - **深度估计策略**:交互区域深度估计较全图像均匀采样,成功率提升18% [18] StereoVLA的局限与未来方向 - **图像分辨率限制**:224×224分辨率对1-2cm小型物体的语义接地与定位精度不足 [18] - **长时程依赖缺失**:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - **多机器人适配**:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - **特征提取优化**:可探索更多立体视觉基础模型的适配,进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - StereoVLA的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑,加速了通用自主机器人的落地进程 [16]
马斯克宣布:量产脑机接口,手术全自动化
具身智能之心· 2026-01-04 08:32
公司核心动态与目标 - 马斯克宣布Neuralink将于2026年开始大规模生产脑机接口设备,并转向一种精简、几乎完全自动化的手术流程 [1] - 公司计划将业务从实验室推向临床 [1] - 早在2024年7月,马斯克便曾透露,预计到2026年,Neuralink有望服务超过1000人 [3] - 2024年消息公布四个月后,Neuralink即开始扩充团队,集中招聘制造技术人员与微纳加工专家,为量产提前铺路 [4] 技术进展与手术革新 - 截至2025年9月,Neuralink累计服务的患者只有12人 [5] - 到2025年12月,接受植入的受试者数量已从9月的12人增加至20人 [41] - 现有植入手术流程复杂,依赖医生经验,难以规模化 [8][9] - 马斯克表示,到2026年,植入手术将升级为一种「高度简化、几乎完全自动化的流程」 [10] - 新技术核心在于电极线将直接穿过硬脑膜,而无需将其切除,这是一种更「微创」的方式 [12][14] - 新方式能带来更低的成本、更小的风险、更短的恢复周期,标准化门槛因此更低 [14] 产品应用与市场潜力 - 公司产品重点仍集中在治疗神经系统疾病,包括瘫痪、肌萎缩、帕金森、老年痴呆和视力障碍 [18] - 2024年1月,首位志愿者Noland Arbaugh(因潜水事故瘫痪)接受植入后,仅凭植入大脑的芯片便能在X上发帖和玩《马里奥赛车》 [19][20] - 对于神经系统疾病而言,脑机接口几乎是当前最具潜力、甚至唯一有效的解决方案 [6] - 规模化生产降低手术门槛与价格,对于潜在患者而言是一项改变命运的事件 [23] 长期愿景与战略定位 - 在马斯克看来,Neuralink并不只是医疗设备,而是人类应对潜在「邪恶AI」的重要防身武器 [25] - 公司长期愿景是让人类拥有与硅基智能相当的高带宽接口,以避免在强人工智能(ASI)时代沦为「被圈养的宠物」 [26] - 最终目标是让所有人能通过脑机接口直连网络,使人类能像软件一样,随时通过OTA更新自己的技能储备,从而迎来文明大爆发 [27][28] 发展历程与关键节点 - Neuralink成立于2016年 [33] - 2019年,首次展示动物实验 [34] - 2020年,展示配有脑机接口设备的小猪 [35] - 2021年,成功让猴子凭借意念玩乒乓球游戏 [36] - 2022年,实验引发争议,进展慢于预期,FDA审批受阻 [37] - 2023年,迎来拐点,获FDA批准,开展人体临床实验 [38] - 2024年,首位患者接受植入 [39] - 2025年,普及速度开始加速 [40] 当前挑战与行业现状 - 技术成熟度是绕不开的因素,但对应用而言,更现实的挑战在于手术本身 [7] - 自动化脑机接口植入手术仍然停留在实验阶段 [30] - 在受控实验环境之外,涉及脑植入设备的自主神经外科手术,仍未得到充分验证 [32] - 手术对象是大脑,一旦出现失误,其风险与后果远非普通外科手术能比拟 [31]
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 08:32
文章核心观点 文章通过多位行业专家的圆桌讨论,深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势,核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术,但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**:张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法,这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**:Pi0.6提出了一个重要观点,即基座模型预训练的数据质量因领域而异,在自动驾驶和具身智能中,大量采集的数据可能只有约1%到10%是“完美”可用的[4][5],RL的价值函数可以对行为进行评分,从而将大量原本被丢弃的非完美数据利用起来,这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**:当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型,再用强化学习进行最后的性能提升,即跑“最后一公里”[3][20],模仿学习能高效地将模型提升到一定水平(如80分),而强化学习则能通过探索跳出局部最优,从长程任务结果上进行优化,两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**:在探索RL与VLA结合时,发现缺乏能够支撑大规模研究的专用框架,现有框架多为大语言模型推理设计,无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**:为填补工具空白,一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架,其设计目标是全面支持VLA+RL,涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11],该框架的开发投入巨大,仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**:开发团队对代码质量要求极高,为了支持目前已涵盖的近十种主流仿真器,正在进行大规模重构以优化环境接口,确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**:目前没有仿真引擎能达到与真实世界一模一样的程度,人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟,这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**:3D Gaussian Splatting作为一种3D重建技术,其生成的结果人眼难以分辨真假,因此被视为连接真实与仿真的有力工具[23][24],它已首次被与RL结合用于操作任务,其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**:除了3DGS,行业也在探索其他技术来促进迁移,包括利用文生3D/图生3D技术进行场景生成与重建[21],使用双目传感器作为仿真与真实环境的适配器[22],以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**:在双足机器人的局部运动控制层面,强化学习相比传统规则方法优势明显,在鲁棒性和最终效果上都更好,且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**:尽管认可RL的潜力,但一些团队在VLA层面尚未大规模部署RL,主要原因包括缺乏效果得到验证的sim2real仿真器,以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**:导航类任务不主动改变物理环境,其sim2real的挑战与自动驾驶类似;而操作类任务因需与物理环境交互,其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**:当前RL for VLA的研究多集中于提高单一任务的成功率上限,未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识,实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**:具身智能的发展需要感知、决策、控制等各个模块的技术共同推进,任何一个模块的短板都会导致系统级表现的不足,因此需要计算机视觉、机器人学等多领域贡献最新技术[25]
耶鲁00后博士带队!成立仅1年多,单月量产交付了超百台机器人
具身智能之心· 2026-01-01 10:03
行业认知转变 - 2025年人形机器人行业正经历从“概念追捧”到“交付验证”的深刻认知升级[2] - 市场审视维度转向务实与审慎,关注现场机器人数量、产线真实运转、完整物流证据及终端客户真实使用情况[3] - 行业正在褪去故事外衣,回归商业本质,用切实的交付证据代替悬浮的概念展示[4] 公司融资与路线 - 2025年12月,UniXAI宣布完成两轮合计3亿元人民币融资,由多家投资机构及产业方参与[5] - 公司遵循“算法-硬件-场景”三位一体的发展路线[5] - 公司CEO带领团队用1年多时间研发迭代数个版本,并量产了数百台机器人[7] 量产交付与生产 - 2025年12月,公司工厂完成了单月过百台的交付,机器人发往全国各地[8] - 公司实现了从电机、关节到底盘、夹爪的量产闭环[9] - 工厂具备生产、装配、测试、包装与出货完整链路,提供了成品箱堆叠、批量装配、长序列测试、封箱贴单、叉车装车等“量产即交付”的完整视觉证据链[15] 产品与市场表现 - 公司产品线包括移动操作机器人Wanda系列、双足通用人形机器人Martian、适配科研场景的OpenArmX[13] - 产品覆盖娱乐、养老、家庭服务、工业、安防、高危、科研等各类场景[14] - 在2025年世界人形机器人大会上,公司获得“酒店迎宾服务”和“酒店清洁服务”两枚金牌及一枚银牌,位列奖牌榜前三[10] - 在IROS大会上,公司推出的两款限时活动产品在三天内获得百万级订单[12] 技术能力 - 机器人搭载8自由度机械臂与夹爪式灵巧手,能执行大范围、大负载运动调度及高精度微操作任务[21] - 自研三大核心技术:UniFlex(模仿学习)、UniTouch(触觉感知)与UniCortex(多模态大模型),共同构筑“感知-决策-控制”闭环的算法三角[21] 商业化应用落地 - 在酒店与康养机构场景,已有超过100台机器人被部署,用于房间整理、物资递送与保洁任务[17] - 在安防巡检与园区警戒场景,已有数百台机器人进入行业,用于巡检、开门交互、警戒识别等任务[18] - 在互动展台与商业餐吧场景,机器人已用于调酒、比心交互、精准抓取与娱乐展示,并进入真实客户部署[19]
Physical Intelligence最新π0.5+ego!从人类视频到机器人技能的跨模态迁移
具身智能之心· 2025-12-31 12:00
文章核心观点 - 来自Physical Intelligence与佐治亚理工学院的联合团队提出的“+ego”框架,通过“规模化预训练 + 跨模态协同微调”的核心思路,首次揭示了视觉-语言-动作模型中“人类-机器人技能迁移”的涌现性规律,为通用机器人政策的规模化训练提供了全新路径[1] - 该框架无需显式对齐即可实现跨模态迁移,仅需数十小时人类数据即可让机器人性能显著提升,并覆盖场景、物体、任务的三维泛化[2] - 研究的核心贡献在于揭示了“规模化多样化预训练催生涌现能力”的规律,仅需数十小时人类数据即可让机器人掌握未见过的新任务逻辑与场景适应能力,为低成本、规模化训练通用机器人提供了新范式[33] 问题根源:人类-机器人技能迁移的挑战 - **模态差异鸿沟**:人类与机器人的视觉观测(第一视角 vs 机器人端视角)和运动学特征(人手动作 vs 机械臂轨迹)存在本质差异,缺乏天然映射关系[3] - **数据对齐难题**:传统方法需通过AR/VR叠加、手动标注等方式实现人类与机器人动作的显式对齐,成本高且泛化性差[4] - **数据效率瓶颈**:人类视频虽场景丰富,但缺乏机器人所需的精准动作标签与力反馈信息,单独训练难以形成有效政策[5] 方案设计:+ego的三层技术体系 - **第一层:人类数据采集与标准化处理** - 采用头戴式相机加双腕部相机的组合,同步捕捉第一视角场景和手部交互细节,以模拟机器人的末端执行器观测视角[8] - 将人类手部动作转化为与机器人末端执行器一致的6自由度相对姿态轨迹,通过手掌、中指、无名指的3D关键点定义“人类端效应器”,实现动作表征的粗粒度对齐[13] - 为人类视频添加“高层子任务描述”与“低层动作序列”双级标签,构建与机器人数据结构一致的标注体系[13] - 采集了14小时人类交互数据,涵盖清理台面、整理物品、鸡蛋分拣等任务,覆盖14个日常场景与800多个交互物体[13] - **第二层:模型训练框架——无显式对齐的协同微调** - 以高性能VLA模型为基础,将人类数据视为额外模态进行协同训练[9] - 沿用VLM backbone加动作解码器结构,通过mean-pooling提取跨模态统一表征,无需修改模型架构即可融入人类数据[11] - 对人类与机器人数据采用完全相同的训练目标,包括基于FAST离散动作token的next-token预测与连续动作的流匹配损失进行低层动作预测,以及基于自然语言标注的序列预测进行高层子任务预测[13] - 微调阶段采用“50%人类泛化任务数据 + 50%机器人近邻任务数据”的混合训练策略[13] - **第三层:泛化基准测试体系** - 构建了覆盖“场景-物体-任务”三维度的泛化基准,以精准评估跨模态迁移效果[12] - 评估指标上,短时长任务采用二元成功率,长时长任务采用正确放置物体数量或比例[16] 核心发现:多样化预训练驱动的涌现性迁移 - **迁移能力随预训练多样性涌现** - 当VLA模型的预训练数据覆盖足够多的场景、任务与机器人模态时,人类-机器人迁移能力会在突破临界阈值后显著提升[16] - 无预训练或低多样性预训练(≤25%)时,人类数据无法带来性能提升,甚至出现负迁移[17] - 高多样性预训练(≥75%)时,跨模态迁移效果显著,在鸡蛋分拣任务中,机器人仅通过人类视频学习,分拣准确率从57%提升至78%,正确放置鸡蛋数量平均增加4个[17] - 加入跨机器人模态预训练后,迁移性能进一步提升,在场景泛化任务中成功率最高翻倍(整理梳妆台任务:25%→50%;香料整理任务:32%→71%)[17] - **涌现的跨模态统一表征** - TSNE分析显示,随着预训练多样性增加,人类与机器人数据的潜在表征从完全分离逐渐趋于重叠[18] - 低多样性预训练时,模型对人类与机器人数据形成独立表征,无法共享语义与动作知识[22] - 高多样性预训练后,两种模态的表征空间高度对齐,模型自动学习到“动作意图”层面的抽象共享特征[22] - **人类数据与机器人数据的互补价值** - 人类数据可视为“低成本跨模态数据源”,其性能接近甚至超越非目标机器人数据[20] - 在鸡蛋分拣与梳妆台整理任务中,同等规模的人类数据与目标机器人数据的微调效果相当[24] - 在清理台面任务中,人类数据虽略逊于目标机器人数据,但优于跨型号机器人数据(UR5→ARX),证明了人类数据的泛化性优势[26] - 高层子任务与低层动作预测的协同训练至关重要,单独依赖某一层级的迁移效果有限[27] - **硬件优化的关键作用** - 腕部相机的加入显著提升特定任务性能[29] - 在清理台面与梳妆台整理任务中,腕部相机提供的手部-物体交互细节使成功率提升10%-15%[31] - 在香料整理与鸡蛋分拣任务中,因场景开阔、物体特征明确,腕部相机的增益不明显[31] - **任务泛化的scaling规律** - 单独增加预训练多样性无法让机器人掌握未见过的任务逻辑,而人类数据的引入能实现突破性提升[31] - 在鸡蛋分拣任务中,仅用机器人数据微调时,即使预训练多样性达到100%,性能仍处于较低水平[35] - 加入人类数据后,性能随预训练多样性呈线性增长,证明多样化预训练为人类数据的知识迁移提供了必要基础[35] 局限与未来方向 - **数据规模与场景覆盖**:当前仅使用14小时人类数据,未来可结合被动采集的日常人类视频,进一步扩大数据规模与场景多样性[35] - **动作表征精细化**:人类手部动作的抓取状态(如握力大小)尚未精准建模,需结合触觉传感器等设备提升动作表征的精细度[35] - **长时程任务迁移**:现有任务以中短时长为主,未来需探索复杂长时程任务(如烹饪、组装)的跨模态迁移规律[35] - **模型规模与效率平衡**:当前依赖大规模VLA模型,需探索轻量化模型的跨模态迁移能力,以降低部署门槛[35]
VLA-Arena:一个用于系统性评估VLA的开源基准框架
具身智能之心· 2025-12-31 08:50
研究背景与动机 - Vision-Language-Action模型正快速向通用机器人策略演进,已实现跨载体泛化、灵巧操作、指令跟随等多种能力 [1] - 当前对这类模型的能力边界、局限及失效模式缺乏定量理解,现有基准存在三大核心缺陷:静态任务设计、忽视安全性、偏重鲁棒性而非外推能力 [1][4] - VLA-Arena作为全面、可复现的基准框架被提出,核心目标是通过系统化设计,精准刻画VLA模型的能力前沿与失效机制 [1] 核心设计:结构化任务与基准框架 - 基准包含170个任务,按核心挑战分为四个维度,每个维度下的任务均覆盖L0-L2难度 [6] - 任务设计基于三个正交难度轴:任务结构轴、语言指令轴、视觉观察轴 [4][10] - 任务结构轴定义任务与训练分布的距离,分为L0(分布内技能)、L1(近分布泛化)、L2(远分布挑战)三级 [10] - 语言指令轴通过语义可控的词汇替换引入扰动,分为W0-W4五级,基于WordNet选择语义相近词替换指令中的关键语义槽 [10] - 视觉观察轴采用累积式视觉扰动层级,从自然变化到严重退化,分为V0-V4五级,逐步测试模型的视觉鲁棒性 [10] 关键组件与技术细节 - 基于BDDL扩展得到约束行为域定义语言,核心增强两点:支持动态物体定义、明确安全约束语法 [7][11] - 提供VLA-Arena-S/M/L数据集,按任务级别和轨迹数量划分,基于人类演示数据构建,并释放端到端工具链支持全流程 [8] - 语言扰动针对指令中的动词和名词,从WordNet选取语义距离为1的替换词 [11] - 视觉扰动各层级参数按特定分布采样,例如光照参数取自均匀分布U(-0.75,0.75),高斯噪声参数为N(μ=0, σ²=0.085) [11] 实验设计与主要发现 - 评估覆盖两大架构范式,包括自回归模型和连续动作生成模型 [12] - 评估指标包括成功率和累积成本,后者仅用于Safety维度,量化安全违规程度 [12] - 所有模型在L0训练任务上表现优异,但面对L1和L2任务时性能急剧退化,表明模型记忆优于泛化的强倾向 [14] - 模型对语言扰动普遍耐受,但对视觉扰动更脆弱,视角偏移和传感器噪声会造成严重性能损失 [15] - 当前模型难以将安全约束融入策略,存在安全-性能的矛盾权衡,成功完成复杂任务的模型往往伴随高安全违规成本 [16] - 静态干扰物比动态干扰物更具挑战性,在StaticDistractors L1任务中,部分模型成功率降至0% [19] - 所有模型在长程任务中完全失效,在L1和L2任务的成功率接近或为0,表明模型无法将原子技能链式组合 [19] - 增加L1数据或扩大L0任务覆盖范围,虽能提升近分布性能,但会损害远分布泛化能力 [17] - 与LIBERO基准对比,VLA-Arena的任务深度依赖语言理解,错误/无指令时性能下降52%-64%,证明其任务设计更注重语言-动作的语义接地 [22]
全球超低价5888元!开箱即用支持π0.5的家用科研级具身协作臂来啦
具身智能之心· 2025-12-31 08:50
文章核心观点 - 杭州特修斯意海融硅科技有限公司发布具身智能机械臂S1系列产品,旨在通过大幅降低硬件成本,将具身智能科研平台的门槛从30万元级别降至5888元,从而推动更多人参与到具身智能的探索与研发中[1][9] 行业背景与痛点 - 人形机器人与AI(如DeepSeek)的发展凸显了AI需要能与现实交互的物理载体,即“具身智能”的核心意义[3] - 当前具身智能科研面临高成本壁垒,主流的双足人形机器人、轮臂复合机器人等平台价格动辄20万、30万甚至更高,限制了更广泛的参与[5] 公司创业动机与定位 - 公司由一群“不怕折腾的年轻人”创立,创业起点源于“好想实现机械臂自由”的想法,目标是兑现“做一套科研人的低门槛具身智能解决方案”的承诺[6] - 公司定位为专注于具身智能算法与机器人研发的科技公司,致力于推动两者深度融合,提供端到端解决方案,以探索人机协同新范式并助力产业革新[11] 产品解决方案与技术特点 - 公司摒弃了传统舵机方案,采用基于无刷电机与高精度编码器的全闭环伺服控制系统,以提供高带宽、低延迟、可观测的物理信号输入,为算法学习真实的动力学数据奠定硬件基础[6] - 产品S1机械臂核心参数包括:623mm臂展、6自由度、0.1mm重复定位精度、3.8kg整机重量、1kg负载可连续稳定运行2小时,并提供Python/C++ SDK及ROS支持[8] - 公司提供全面的开发者生态支持,包括已适配并开源LeRobot项目,免费提供端侧数据集采集工具、Pi项目示例代码,并将陆续免费开放S1机械臂多任务数据集[8] 产品定价与市场策略 - 公司用一年时间将具身智能科研平台成本从30万元级别压缩至5888元,并采取首批限量100台的销售策略[9] - 公司的根本意图并非单纯销售机械臂,而是通过降低硬件门槛,推动更多人参与到具身智能的未来探索中[9]