Workflow
具身智能之心
icon
搜索文档
港大团队首发具身表征新范式,构建任务自适应感知框架
具身智能之心· 2025-09-12 08:05
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助 理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。 出发点与研究背景 在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic): 无论具身智能体要 "关抽屉" 还是 "堆积木",系统提取的特征的方式始终相同(利用同样的神经网络参数)。 想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表 征中包含大 ...
机器人走进工厂矿场,外滩这场机器人职业技能赛有意义!
具身智能之心· 2025-09-12 08:05
机器人职业技能表演赛概况 - 蚂蚁数科承办的外滩大会AI科创赛"机器人职业技能表演赛"于9月10日举行 4家具身智能厂商的机器人参与高难度工业与救援场景任务 [2] - 赛事吸引全球近20个国家和地区 8000多支战队 近2万名科技爱好者与AI创业者参与 [9] 参赛公司及表现 - 七腾机器人完成"危境穿越"任务 在模拟崎岖沙地行走 上坡与下台阶时快速调整恢复 体现良好算法基础 [3] - 双瀛航空&求之科技联合研发机器狗完成工业巡检六大动作 包括开关门 识别按钮 拉闸报警 并在救援场景中通过多模态传感器救出仿真婴儿 [5] - 中科慧灵机器人完成模拟矿洞爆破任务 实现毫米级精准插入火药雷管 展现实时纠偏与机械臂协同能力 [7] 技术突破与行业应用 - 机器狗移动能力已较成熟 但精细操作仍是行业痛点 双瀛航空&求之科技通过机械臂加持在力控与视觉融合表现突出 [5][6] - 工业巡检和应急救援被认定为机器人落地最具价值的两大场景 能突破人体极限进入高温 有毒环境执行危险任务 [5][6] - 具身智能在工业场景发展潜力巨大 涵盖制造 质检 产线巡检 物流等重要环节 [9] 赛事成果与行业影响 - 双瀛航空&求之科技队荣获第一 七腾机器人与中科慧灵并列第二名 [9] - 赛事推动行业聚焦真问题 真场景 蚂蚁数科将持续开放高质量训练数据与研发平台 [9] - 技术展示体现从"技术演示"向"产业应用"的推进 强调AI发展应服务于人类保护需求 [9]
当我们再说具身大小脑的时候究竟在说什么?
具身智能之心· 2025-09-11 13:53
具身智能行业概述 - 具身智能成为通用人工智能(AGI)探索的关键方向 强调智能体与物理环境的交互与适应 聚焦感知环境、理解任务、执行动作和反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知和语义理解 小脑负责高精度运动执行 [1] 国内外产业布局 - 近2年具身明星团队创业活跃 星海图、银河通用、逐际动力等从实验室走向商业和工业界 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人合作建设大脑和小脑关键技术 [5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力 强化物流科技与家庭服务场景能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题 [6] - 第三阶段兴起Diffusion Policy方法 通过扩散模型生成动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - VLA模型实现从"感知+控制"向"感知+推理+行动"的范式跃迁 代表工作包括OpenVLA、RT-2、PI0等 [7] - 2025年探索VLA与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限 [9] 技术融合方向 - VLA+强化学习提升长时任务试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 [11] - VLA+触觉信息拓展多模态融合感知边界 实现更精细安全的操作 [12] - 技术演进从低层感知向高层理解发展 逐步迈向通用任务和开放环境智能体时代 [14] 应用与人才需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 [14] - 应用覆盖工业、家居、餐饮、医疗康复等领域 相关产品和融资活跃 [14] - 岗位呈现爆发式增长 大量人员转入具身智能领域研究 [14] - 工程与系统能力需求激增 需掌握Mujoco/IsaacGym/Pybullet等平台策略训练与仿真测试 [17] - 需具备训练部署Diffusion Policy/VLA/力触融合模型的能力 [17] - 需实现强化学习在VLA后训练的应用 支持机器人反馈微调 [17] - 需掌握从世界建模预测到策略学习再到物理执行的一体化架构 [17]
库克挤爆牙膏!5999元iPhone17上高刷,新款耳机能测心率+同传
具身智能之心· 2025-09-11 10:07
iPhone 17系列产品更新 - 标准版iPhone 17起售价5999元,首次配备最高120Hz的ProMotion自适应高刷屏[15][17][19] - 全系搭载3nm工艺A19芯片,苹果官方称其性能相比A18有20%提升[22][23] - 采用4800万像素融合式双摄系统,主摄像头融合2倍长焦,前置升级为1800万像素Center Stage摄像头,传感器面积是前代近2倍大[25][26][28][30] - 电池续航最长可播放30小时视频,支持充电10分钟播放8小时视频,20分钟最多充电50%[36] iPhone 17 Air新品特性 - 新品iPhone Air主打轻薄,厚度仅5.6毫米,重165克,采用钛金属机身,起售价7999元[39][42][44] - 搭载A19 Pro芯片,CPU为目前最快手机CPU,GPU峰值算力是A18 Pro的3倍[46][48][49] - 配备6.5英寸120Hz高刷屏,峰值亮度3000尼特,全球仅支持eSIM,国行版本同步发售但仅支持联通[42][44][58][59] - 采用高密度电池,视频播放时长增加4小时,配合新MagSafe充电宝可实现40小时视频播放[60][62][66] iPhone 17 Pro/Pro Max专业升级 - Pro系列采用铝金属一体成型设计,散热效率达此前钛金属Pro的20倍,起售价分别为8999元和9999元[68][71][72][74] - 搭载6CPU+6GPU的A19 Pro芯片,Pro最长播放33小时视频,Pro Max最长播放39小时视频[74][75] - 影像系统配备4800万像素融合式三摄,支持最多8倍光学变焦,支持ProRes视频拍摄,可拍4K60fps视频[77][79][80][81][83] - 苹果宣称发布会全程使用iPhone 17 Pro拍摄,展示其专业影像能力[84] AirPods Pro 3功能升级 - 新一代AirPods Pro 3定价1899元,主动降噪效果达前代2倍,具备IP57防水[87][88][89][90] - 新增机器学习算法加持的心率传感功能,运动时可监测心率和卡路里[90][91] - 支持Apple Intelligence实时翻译功能,对话双方佩戴可实现直接翻译[93][94][96] - 降噪模式续航6-8小时,通透模式续航10小时,9月19日正式发售[98][99] Apple Watch系列新品 - Series 11起售价2999元,为最薄最舒适款式,抗刮能力提升2倍,支持5G通信且国内三大运营商均支持[100][101][103][105][106] - 新增高血压通知功能,通过光学心率传感器数据监测高血压征兆,预计一年内帮助发现100万未确诊病例[109][110][111][113][114] - 新增睡眠质量评分功能,对睡眠指标进行分析并提供改善指导,电池重新设计后续航提升至24小时[116][118][120] - SE 3起售价1999元,支持5G,首次在SE系列引入全天候显示等功能,支持快充,充电15分钟可用8小时[122][124][130] - Ultra 3起售价6499元,支持5G和卫星通信,续航42小时,采用OLED和LTPO3技术,拥有最大屏幕但无需更换保护壳[131][133]
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 10:07
文章核心观点 - 西湖大学团队提出自适应强化流匹配方法,旨在解决现有视觉-语言-动作流模型在复杂任务中动作精度不足的问题 [2] - 该方法通过在损失函数中引入自适应缩放因子,动态平衡强化学习信号与训练稳定性,使模型能更关注高质量数据 [2][6] - 实验证明该方法在泛化能力、抗干扰性、少样本学习及持续学习方面均优于现有基准模型 [6][49] 研究背景与问题 - 基于流匹配的视觉-语言-动作模型在常规场景表现良好,但依赖模仿学习后训练,难以理解数据质量分布特性 [1][4] - 在复杂下游任务中,现有模型动作精度显著下降,离线强化学习方法在流模型上效果不佳,因无法高效指导动作轨迹生成 [1][4] 主要贡献 - 提出自适应强化流匹配方法,填补了视觉-语言-动作流模型高效离线强化学习微调的技术空白 [6] - 从理论上构建了偏差-方差权衡目标函数,并推导出实时更新缩放因子的二分迭代算法 [6] - 在仿真与真实平台的大量实验中,该方法在多项性能指标上均展现出当前最优水平 [6] 核心算法设计 - 方法核心是构建能量加权损失以融合强化学习信号,并设计自适应机制平衡训练稳定性 [8] - 通过能量引导分布重塑动作轨迹的学习偏好,使模型更关注高强化学习优势的样本 [11][12] - 采用批次采样近似策略将理论损失转化为可高效计算的批次加权损失 [15] 实验设置 - 仿真实验采用LIBERO基准测试平台,涵盖4个核心套件共40个独立任务,评估不同操控能力 [27][29] - 真实世界实验使用UR5机械臂平台,设计3类抓取-放置任务并引入外部物理扰动 [29] - 基准方法包括非流匹配型与流匹配型两大类,以确保对比的全面性与公平性 [27][30] 核心实验结果 - 在多任务学习中,自适应强化流匹配平均成功率达92.1%,较基础流模型提升4.5个百分点,优于其他基准 [32][35] - 在动作扰动实验中,该方法平均成功率为48.2%,较基础流模型提升11.4%,显示出更强鲁棒性 [33][36] - 在少样本学习场景下,该方法平均成功率为36.5%,较基础流模型提升12.2%,证明其高效的数据利用效率 [34][37][45] - 在持续学习实验中,该方法平均负向后迁移指标为4.7,较基础流模型降低38.0%,抗遗忘能力显著提升 [38][39] 方法优势 - 自适应机制降低了对超参数的敏感性,不同超参数下模型成功率波动小于2个百分点,便于工程落地 [40][43] - 二分迭代算法轻量化且高效,仅需10次迭代即可获得近似最优缩放因子,计算成本低 [40][43] - 该方法无需修改模型骨干结构,与现有视觉-语言-动作流模型兼容,工程落地成本低 [25][49]
上交发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作
具身智能之心· 2025-09-11 10:07
文章核心观点 - 公司推出了一款名为U-ARM的超低成本、开源主从遥操作系统,旨在解决双机械臂策略学习中真实世界操作数据收集的瓶颈问题 [4][5] - 该系统通过创新的硬件设计和成本优化,将单臂成本显著降低至50.5美元(6自由度)和56.8美元(7自由度),远低于市场主流方案如ALOHA(超5万美元)和GELLO(270美元) [6][9] - U-ARM在真实世界实验中展现出显著效率优势,平均任务耗时17.7秒,相比低成本代表Joycon(29.04秒)数据收集效率提升39% [22][24] 研究背景与核心需求 - 大规模高质量的真实世界操作数据是双机械臂策略学习的关键瓶颈,相比仿真或纯人类数据,真实机械臂数据对训练鲁棒政策的直接适用性最强 [4] - 当前获取这类数据的主要方式仍是人类演示,需要可靠的遥操作接口作为支撑 [4] 现有方案的痛点与U-ARM的定位 - 现有遥操作设备存在明显痛点:末端执行器轨迹记录设备(如DexCap)收集的数据常出现运动学奇点、精度不足等问题;主从遥操作系统(如ALOHA)虽能确保轨迹可执行,但适配不同商用机械臂需大量工程工作且成本极高 [6] - 高成本方案如ALOHA(双臂超5万美元)虽易用性强但限制普及;低成本方案如VR头显存在晕动症问题,SpaceMouse难以实现双手操作,Joycon(20美元)实际操作效率低;过渡方案如GELLO(270美元)成本仍有下降空间;入门级方案如LeRobot无法适配常用的6/7自由度商用臂 [6][9] - U-ARM的定位是填补“超低成本”与“高兼容性”之间的空白,借鉴3D打印思路但进一步简化设计,主臂无需主动驱动仅记录关节角度 [9] U-ARM系统设计 - 硬件设计基于多数商用6/7自由度机械臂遵循的3种标准化关节序列,设计了三种主臂构型(两种6DoF、一种7DoF)以适配不同商用机械臂,如Xarm6、Fanuc、KUKA、UR5、Franka等 [10][12][14] - 所有部件采用PLA 3D打印,最小壁厚设为4mm以保证耐用性,并采用双轴固定设计缓解关节连接板松动/断裂问题 [14] - 通过拆解中菱舵机、移除内置齿轮箱仅保留编码器,并调整关节轴螺丝松紧控制阻尼,平衡“易移动性”与“稳定性” [14] - 主臂关节活动范围故意设为较窄区间以覆盖典型桌面操作需求,避免极端姿态破坏结构完整性,提升系统稳定性 [14][15] 算法设计 - 安装前需手动将编码器调至135°中性位,确保主臂在正常操作中不会超出编码器有效范围(0-270°) [16] - 每次遥操作需执行初始化让从臂移动到预定义姿态,主臂靠近后完成初始化并接管控制 [17][19] - 采用滤波与插值算法:若目标角度变化量小于阈值则不执行动作避免抖动,否则将变化量分步发送控制指令确保从臂运动平滑准确 [17] 实验验证与结果分析 - 仿真适配部分在ManiSkill环境中支持7种商用机械臂,用户可在操作真实机械臂前验证潜在问题,并收集演示数据用于降低真实数据收集成本 [20] - 真实世界实验对比U-ARM(Config-1)和Joycon操控Xarm6执行5种典型桌面任务,U-ARM平均耗时17.7秒,成功率75.8%;Joycon平均耗时29.04秒,成功率83% [22][24] - U-ARM效率提升39%主要得益于其主从关节映射设计,使操作者能更自然快速地完成大范围移动;成功率略低因实时传输手部动作在精细操作时易出现微小误差,但属于可接受的权衡 [24]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 10:07
开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
当老师给我指了VLA作为研究方向后......
具身智能之心· 2025-09-10 19:00
VLA技术范式与行业地位 - VLA是具身智能领域新范式 直接从语言指令和视觉信号生成机器人可执行动作 打破传统单任务训练局限 推动机器人向更通用和场景泛化方向发展[1] - VLA将视觉信息 语言指令和行动决策有效整合 显著提升机器人对复杂环境的理解和适应能力 在学术界和工业界具有重要性[1] - VLA模型已成为研究热点 推动多个前沿项目发展 包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[3] VLA应用场景与平台适应性 - VLA广泛应用于制造业 物流和家庭服务等领域 使机器人能在多样化场景中自主决策 灵活应对未见过的环境[3] - VLA模型适应性体现在可应用于机械臂 四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力和实际应用价值[3] - VLA成为智能机器人领域关键驱动力[3] 具身智能产业发展格局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元 星海图 银河通用 逐际动力等团队从实验室走向商业化[5] - 华为 京东 腾讯等科技巨头积极布局 与国外Tesla Figure AI等公司共同推动领域发展[5] VLA技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2 OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射 应用于复杂任务规划和执行[8] - 具身智能面临核心挑战包括跨域泛化 长期规划与世界模型构建 需将大型语言模型推理能力与机器人控制系统结合[9] - PaLM-E RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性[9] 前沿研究方向与突破重点 - 具身智能前沿发展方向包括多模态感知融合 触觉反馈整合 基于物理的推理以及社会互动能力[9] - 研究目标包括突破"看得见但摸不着" "只关注当下不能预测未来"等局限性 向真正通用机器人智能迈进[9] - 未解决难点包括长期记忆 VLA+RL原子技能库构建 动作解码问题 多模态思维链等多个前沿方向[15]
厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!
具身智能之心· 2025-09-10 14:18
核心观点 - 提出FastVGGT方法 通过分析VGGT模型推理效率瓶颈并引入token merging技术 在保持3D重建精度的同时实现最高4倍加速 显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈 首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速 同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗 时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误 导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余 同一Block下不同token注意力图几乎重合 出现token collapse现象[7] - 全局退化反映场景一致性 但带来计算冗余 为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量 保证密集3D重建输出完整性[15] 实验结果 点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒 加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法 在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速 适用于大规模3D视觉系统[26]
上海交大发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作系统
具身智能之心· 2025-09-10 11:31
研究背景与核心需求 - 在双机械臂策略学习中,大规模高质量的真实世界操作数据是主要瓶颈,其直接适用性最强但获取困难 [4] - 当前获取真实机械臂数据的主要方式仍是人类演示,需要可靠的遥操作接口作为支撑 [4] 现有方案痛点与U-ARM定位 - 现有遥操作设备主要分为末端执行器轨迹记录设备和主从遥操作系统两类,分别存在数据质量差或成本高昂的问题 [6] - 高成本方案如ALOHA双臂系统价格超过5万美元,虽易用性强但限制普及 [6][9] - 低成本方案如VR头显存在晕动症问题,SpaceMouse难以实现双手操作,Joycon游戏手柄虽仅20美元但实际操作效率低 [9] - 过渡方案如GELLO单臂成本270美元,依赖较贵的Dynamixel电机,成本仍有下降空间 [6][9] - U-ARM定位为填补“超低成本”与“高兼容性”之间的空白,单臂成本压至50.5美元(6DoF)和56.8美元(7DoF) [9] U-ARM系统硬件设计 - 硬件设计基于多数商用6/7自由度机械臂遵循的三种标准化关节序列,开发了三种主臂构型以广泛适配商用机械臂 [10] - Config-1(6DoF)适配Xarm6、Fanuc LR Mate 200iD、KUKA LBR iiSY等 [12][14] - Config-2(6DoF)适配Dobot CR5、UR5、AUBO i5等,特别调整了关节顺序以适配交叉轴腕部结构 [12][14] - Config-3(7DoF)适配Franka FR3、Franka Emika Panda、Flexiv Rizon等 [12][14] - 采用PLA 3D打印材料,最小壁厚设为4mm以保证耐用性,并采用双轴固定设计缓解关节负载问题 [14] - 通过拆解中菱舵机、移除齿轮箱仅保留编码器,并调整关节阻尼,实现了主臂的成本优化与操作体验平衡 [14] U-ARM算法设计 - 编码器需手动调至135°中性位,确保主臂在正常操作中不超出编码器有效范围(0-270°) [16] - 算法包含初始化、角度映射、滤波与插值步骤,以确保从臂运动的平滑与准确,避免微小扰动导致抖动 [17][19] 实验验证与结果分析 - 仿真适配实验在ManiSkill环境中成功适配7种商用机械臂,可用于提前验证问题和收集演示数据 [20] - 真实世界实验对比U-ARM(Config-1)和Joycon操控Xarm6执行5种典型桌面任务 [21] - U-ARM平均任务耗时为17.7秒,显著低于Joycon的29.04秒,数据收集效率提升39% [22][24] - U-ARM平均成功率为75.8%,略低于Joycon的83%,但在精细操作任务上存在可接受的权衡 [22][24] - U-ARM在任务“Fanta-to-shelf-2”上成功率(72.2%)高于Joycon(60.0%),而在“Can-stacking”任务上成功率(39.6%)较低 [22]