端到端学习
搜索文档
著名机器人专家:人型机器人的未来是不像人
36氪· 2025-09-30 16:43
人形机器人发展现状与核心理念 - 人形机器人的设计理念是采用与人类相同的身体结构,在人类环境中像人类一样工作,旨在打造一种通用机器人以替代数百万种执行特定任务的不同类型机器人 [5] - 行业参与者对人形机器人的经济潜力抱有极高预期,例如特斯拉首席执行官预测其Optimus机器人可能创造30万亿美元的收入,并将其称为"或许是全球最大的产品" [6] - 尽管存在狂热宣传,但人形机器人目前仍处于发展初期,远未达到宣传热度的峰值,其核心价值主张的实现依赖于达到人类水平的灵巧操控能力 [3][6][7] 灵巧性挑战与技术瓶颈 - 机器人灵巧操控的研究已持续65年以上,但至今尚无任何一款多关节手指机器人手部能达到足够的耐用性、力度和使用寿命以满足实际工业应用需求 [2][13][16] - 工业环境中主流的机器人末端执行器仍是平行夹爪抓取器和吸盘式抓取器,而非模仿人类手部的复杂设计 [13][16] - 当前主流的研究方法是通过让机器人"观看"人类完成任务的第一视角视频来进行端到端学习,但这种方法完全忽略了触觉和力反馈等对人类灵巧性至关重要的数据 [22][25][26] 端到端学习的成功案例与局限性 - 端到端学习在语音转文字、图像标注和大型语言模型三个领域取得革命性突破的关键,不仅依赖于大规模数据集,更依赖于针对特定领域精心设计的前端数据预处理工程 [27][31][34][39] - 这些成功案例的前端预处理技术最初都是为了实现人类感官信息的远程或异步传输而研发的,例如语音压缩技术是为了电话通信,图像序列化是为了图像传输 [32][34][38] - 在触觉领域,目前尚无类似的技术积累来捕捉、存储和回放触觉信号,这使得单纯依靠视觉数据来训练灵巧性面临根本性挑战 [43] 实现灵巧性的关键要素 - 人类的灵巧性极度依赖于丰富复杂的触觉感知系统,例如人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型的神经元参与人类手部的触觉感知 [45][48][49] - 学术界的探索性研究显示,更先进的数据收集方法需将人类的手指动作与人类在控制机器人手时所感知的触觉信号关联起来,这超越了仅收集视觉数据的局限 [52][55] - 实现真正的灵巧性不仅需要学习动作策略,更需要学习如何根据触觉层面的感知来调整任务目标规划,这仍需要大量研究 [56] 人形机器人行走的安全性问题 - 当前与人类等大的双足行走人形机器人对人类而言并不安全,其行走主要依靠基于零力矩点算法和大功率电机来维持平衡,一旦摔倒,其刚性结构和高能量腿部会对附近人类造成严重伤害 [57][59][61] - 物理系统的缩放定律使得安全性问题随尺寸放大而急剧恶化,将机器人放大到人类尺寸(比例系数2)时,其能量需求会变为8倍,潜在伤害级别完全不同 [62][63] - 要实现与人类安全共享空间的大规模部署,必须研发出更安全、可近距离接触的双足行走机器人,但目前尚未解决此问题 [57][63] 人形机器人未来形态演变 - "人形机器人"的定义将随时间演变,未来其"脚"可能被轮子取代,出现"单臂、双臂、三臂"等不同版本,并配备非被动摄像头传感器,但仍会被称为"人形机器人" [64][65] - 未来将出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人",而当前为榨取现有设计性能投入的巨额资金可能付诸东流 [66] - 行业预测在未来15年,虽然会拥有大量人形机器人,但它们的外观既不会像如今的人形机器人,也不会像人类 [2][66]
著名机器人专家:人型机器人的未来是不像人
阿尔法工场研究院· 2025-09-30 15:18
人形机器人行业现状与宣传热度 - 人形机器人行业正处于技术成熟度曲线的起点,远未达到宣传热度的峰值,而生成式人工智能已过峰值[4] - 行业核心理念是研发能完成人类所有工作的通用人形机器人,无需制造不同类型的专用机器人[7] - 部分公司预测人形机器人将在两年内产生显著经济影响,更保守的预测则认为需要五年时间[9] - 特斯拉首席执行官预测其Optimus人形机器人可能创造30万亿美元收入,并称之为"或许是全球最大的产品"[9] 人形机器人发展历史 - 人形机器人研发历史可追溯至20世纪60年代中期日本早稻田大学的研究,该校于70年代初研制出首台人形机器人WABOT-1[11] - 本田公司在80年代末开始研发双足行走机器人,最终于2000年推出ASIMO人形机器人[11] - 波士顿动力公司在2013年推出了人形机器人ATLAS,该公司35年前从麻省理工学院拆分出来[11] - 麻省理工学院研究团队于1992年开始研发人形机器人Cog,先后开发了七个不同版本的平台[12] 灵巧性挑战与技术瓶颈 - 实现类人操控能力是人形机器人存在的根本原因,但目前尚无多关节手指机器人手部能满足实际工业应用需求[16] - 工业机器人主要使用平行夹爪抓取器和吸盘式末端执行器,德国公司雄克生产销售1000多种平行夹爪抓取器[18] - 人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型神经元参与触觉感知[56][58] - 人类灵巧性依赖于丰富的触觉感知系统,包括默克尔小体、迈斯纳小体、帕西尼小体和鲁菲尼小体等特殊结构[58] 当前训练方法的局限性 - Figure和特斯拉等公司采用"从演示中学习"方法,通过人类完成任务的第一视角视频训练机器人[28][29] - 当前数据收集方法存在局限性,包括无手腕力反馈、手指控制精度有限、无触觉感知以及精度仅为1-3厘米[27] - 麻省理工学院研究团队开发的新型数据收集方法能将人类手指动作与触觉信号关联起来,超越了仅收集视觉数据的局限[62] - 人类在进行灵巧动作时往往会先制定任务目标规划,而非直接将传感器信息映射为动作[64] 行走安全性问题 - 当前人形机器人主要依靠大功率电机维持平衡,使用基于零力矩点算法的改进版,该算法已有约56年历史[70] - 双足行走人形机器人对人类而言存在安全隐患,其腿部会携带大量自由动能,在空间中快速加速,可能造成严重伤害[71] - 根据物理缩放定律,将机器人尺寸放大到人类尺寸(比例系数2)时,能量需求会变为8倍,潜在伤害级别完全不同[72] - 研发行走机器人的公司在其发布的视频中不会出现人类靠近行走中人形机器人的场景,除非有隔离物[73] 行业未来发展趋势 - 未来人形机器人的定义将发生变化,"脚"可能被轮子取代,腿部形态不再与人类相似[75] - 将出现单臂、双臂、三臂等不同版本,部分配备五指手,但更多会采用两指平行夹爪抓取器或吸盘[75] - 未来会出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人"[76] - 目前为提升当前人形机器人性能投入的巨额资金可能付诸东流,这些机器人将被淘汰[76]
叫板FSD?日产新智驾上街了
汽车商业评论· 2025-09-24 01:37
合作与技术路线 - 日产于2025年9月22日在东京开始测试新一代ProPILOT辅助驾驶系统,核心软件来自英国自动驾驶公司Wayve,测试车型为Ariya纯电车型 [4] - 新一代系统基于Wayve的端到端人工智能软件,旨在应对复杂城市路况,所需摄像头和传感器数量更少,计划在2027财年首先在日本搭载到量产车 [4][7] - Wayve获得软银、英伟达等出资,其技术路线强调对真实道路数据的吸收与迁移能力,以实现较高的跨城市“即插即用” [7] - 为支撑日本本地化开发,Wayve于2024年4月22日在横滨设立测试与开发中心,形成覆盖日本、英国、美国、加拿大、德国的五地布局 [7][9] 系统能力与迭代 - 新一代ProPILOT系统属于L2级自动驾驶,驾驶员需始终监控路况并随时接管,并非在所有条件下均可用 [4][9] - 与2016年首发和2019年实现高速公路“短时脱手”的版本相比,新一代系统核心变化在于引入下一代激光雷达与Wayve的AI Driver,重点验证城市道路场景能力 [7][9] - 日产原型车采用11摄像头、5雷达和1激光雷达的组合,保留雷达与激光雷达以增强夜间与高速场景的探测冗余 [15] 战略目标与行业对标 - 日产明确表示其最新一代辅助驾驶技术将达到与特斯拉FSD同等的技术水平,并认为其系统比特斯拉FSD更智能,但产品打磨程度尚未达到其水平 [4][14] - 公司计划在2027财年前后在日本启动小规模无驾驶员L4出行服务,当前与Wayve的合作重点在于量产前的城市感知与决策能力打磨 [10] - 日产“L2先行、城市优先”的路线被视为在日本法规与用户接受度下的折中策略,是量产路径的加速与重心转移,而非直接通向L4 [16]
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑的物流分拣视频,显示其在实际工作场景中的表现[1] - 机器人能够灵活处理多种形态包裹,包括硬纸盒、聚乙烯袋、信封等可折叠或弯曲物品[10] - 通过即时调整抓取策略,机器人可对不同形态包裹采取不同处理方式,如双手翻转纸盒或单手轻捏信封边缘[13] 技术性能提升 - 通过扩展高质量演示数据集和改进Helix神经网络架构,机器人工作稳定性和性能显著提升[7] - 包裹平均处理速度达到4.05秒,吞吐量提高58%,条形码识别成功率从88.2%升至94.4%[17] - 引入视觉记忆、状态历史和力反馈模块,使机器人具备时间背景感和环境适应能力[20][22][28] 系统功能特点 - 机器人具备自主学习能力,能够从演示中学习自适应行为如拍打塑料包装抚平条形码[15] - 采用端到端学习模型,可实现人机自然交互,无需单独程序即可识别人类交接物品的意图[31] - 新策略使条形码识别成功率提升至94%,处理时间降至4.05秒,精度保持在92%以上[30] 行业应用前景 - 技术改进使机器人系统更加灵巧可靠,接近人类水平的工作速度和准确性[19] - 机器人参与物流工作引发行业对效率和成本优势的关注[37] - 仿人型机器人在物流领域的应用引发关于外形设计与效率关系的讨论[39]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑物流分拣视频,处理能力接近人类水平[1][2] - 机器人可灵活处理多种形态包裹(硬纸盒、聚乙烯袋、信封等),并能同时进行多包裹操作[4][10] - 通过实时数据观察学习,机器人具备自适应行为如拍打塑料包装抚平条形码[15] 技术性能提升 - 平均处理速度达4.05秒/包裹,吞吐量提升58%,条形码识别成功率从88.2%升至94.4%[17] - Helix神经网络架构改进包括视觉记忆、状态历史、力反馈三大模块[20][22][26][28] - 新策略使条形码朝下识别成功率提升至94%,处理时间降至4.05秒,精度保持92%以上[30] 系统功能特性 - 端到端学习模型支持人机自然交互,无需程序切换即可响应人类手势传递物品[31][33] - 视觉记忆模块使机器人具备时间背景感,能调用历史图像帧辅助定位标签[23][25] - 力反馈系统形成闭合控制回路,实现精准运动调整以适应不同包裹特性[28] 行业应用反馈 - 技术宅讨论物流机器人仿生外型设计是否最优,提出三头六臂可能更高效[39] - 网友关注机器人参与物流工作带来的效率提升和成本优化潜力[37] - 行业观察者注意到机器人自主学习的条形码处理技巧(如拍打抚平)[15]