文章核心观点 - 在真实、复杂的户外场景中,当前机器人的自主能力面临严峻挑战,频繁“翻车”,特别是在感知与操作方面存在显著短板 [4][8][9] - 行业普遍高估了人形机器人的通用能力,短期内(如五年内)走进家庭承担家务的目标难以实现 [11] - 实现具身智能真正落地的“必选项”是让机器人“丢掉遥控器”,具备全自主的感知、决策与执行能力 [11] - 尽管面临挑战,但比赛中部分机器人的成功表现(如完成500米全自主定向越野)也展示了技术进步的真实希望 [57][59][65] 感知能力面临的困境 - 户外光照变化严重影响机器人视觉感知,强光下深度相机(如RealSense)的主动光结构几乎失效,导致机器人无法识别透明或反光物体(如矿泉水瓶、白色水壶)[14][16] - 复杂变量(如透明与反光、材质差异、颜色变化、光照波动)使得操作任务极其困难,抓取香蕉和矿泉水瓶对机器人而言是完全不同的任务 [23] - 机器人严重缺乏真实的物理信息与触觉反馈,而触觉在人类操作行为中与视觉同等重要 [23] - 部分队伍通过回归“传统视觉+几何”路线并极致打磨,或在高保真模拟器中复现真实噪声,成功实现了复杂任务(如垃圾分拣、吊桥穿越)的全自主完成 [26][28] 智能决策与任务规划能力不足 - 当前多数机器人被形容为只有“20岁身体,3岁智商”,缺乏在开放环境中进行长链任务规划与决策的能力 [31] - 复杂的长链任务(如自主浇花包含8个子任务)难倒了所有参赛机器人,没有一台能实现全自主完成 [32] - 即使采用大模型(VLA模型)进行高层语义理解,其在真实场景中的物理细节理解与操作精度仍不足,导致队伍不得不依赖遥操 [34] - 机器人在任务流程中缺乏异常处理能力,一旦某个环节出错(如水龙头卡住、道具形变),就会陷入停滞,无法自主调整 [37][38][40] 硬件与算力瓶颈 - 主流系统架构采用“大模型+小模型”协同范式,但异构算力(CPU、GPU、NPU)集成面临体积、功耗与高效协同的挑战 [51][52] - 算力不足是突出限制,即使采用豪华端侧配置(如一台Intel NUC主控加两块英伟达算力板),仍面临延迟高、耗电大的问题,无法支撑更大规模模型推理 [52][53] - 实现高质量感知和自适应控制(如力控、重心实时调整)需要更高的算力和更优的本体性能,目前仍有差距 [56] - 行业需要低功耗、高性能的专用芯片和轻量化模型,以让机器人的身体能承载其大脑的智能 [56] 不同机器人形态的发展差异 - 四足机器人在“能走”这一维度已取得质变,有两台四足机器人在比赛中成功完成了500米级、充满挑战的自然地形全自主定向越野 [59][61] - 双足/人形机器人在平衡、力控、地形适应方面远比四足困难,重心高、支撑面小,技术挑战更陡峭,发展道路更长 [61][62][64] - 机器人要真正进入人类世界,需同时具备“能走、能操作、能改造环境”三大能力,目前后两者仍有巨大研究空间 [61] - 在吊桥穿越任务中,面对50cm间隙,四足机器人选择直接跳过,而双足机器人需借助工具(如移动木板)才能通过,这体现了高级智能行为的差距 [43][44][45][49] 赛事价值与行业方向 - 赛事设计直面真实世界的扰动,旨在系统验收机器人的核心能力,并通过碰撞暴露其真正弱点,从而指引行业突破方向 [65][66] - 人工智能的未来方向是机器智能与物理世界的深度融合,AI必须从数据认知走向环境交互和行动执行 [66] - 失败(“翻车”)是进步过程中的正常现象,是迈向成功的必要步骤 [65]
没了遥控器,还被扔进荒野,具身智能该「断奶」了
机器之心·2025-12-09 11:17