鲁棒性
搜索文档
理想分享自动驾驶强化学习闭环训练框架
理想TOP2· 2025-11-28 00:10
论文核心观点 - 论文AD-R1旨在通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性 解决现有世界模型无法正确预测危险后果的系统性缺陷[2] - 核心创新在于提出公正世界模型和基于未来想象的强化学习框架 以解决模仿学习的分布偏移和缺乏负反馈问题[3][4] 自动驾驶技术范式对比 - 开环系统基于离线数据静态回放 算法决策与环境状态解耦 无法改变历史[1] - 闭环系统在动态仿真中实现车辆操作与环境的实时交互 并改变后续时空轨迹[1] 现有技术缺陷分析 - 模仿学习存在分布偏移问题 难以应对训练数据未覆盖的长尾场景[3] - 缺乏负反馈机制 导致AI无法从数据中学习危险行为的后果[3] - 现有世界模型存在乐观偏差 会对不安全动作产生幻觉 如让障碍物消失或改变路面属性以维持预测连贯性[3] AD-R1框架核心技术 - 训练公正世界模型作为诚实裁判 通过反事实数据合成将安全数据转化为车祸数据 教会模型理解危险行为的真实后果[4] - 采用轨迹感知门控技术 通过掩码强制模型关注指令路径上的特征 防止忽略障碍物[6] - 引入自车保真度损失作为惩罚项 防止模型在预测未来时擅自改变自车轨迹 确保其只预测不行动[6] 强化学习训练流程 - 策略网络首先生成候选轨迹(如10条)[8] - 轨迹输入公正世界模型(梦境引擎)预测未来4D占用网格[7][8] - 基于预测未来计算奖励 使用GRPO算法通过对比轨迹优劣更新策略 无需额外价值网络[8] 三维空间精细化评估 - 利用世界模型输出的3D/4D体素数据 计算比传统BEV方法更细致的奖励函数[8] - 体积碰撞惩罚通过重叠体积量化碰撞严重程度 而不仅是二元判断[8] - 垂向间隙惩罚检测隧道顶部或限高杆碰撞风险(2D BEV无法实现)[8] - 路面稳定性奖励确保车辆行驶在平坦路面 避免骑压马路牙子[8]
机器人格斗赛,还得靠人类遥控指挥?
虎嗅· 2025-05-28 10:22
人形机器人格斗赛事 - 全球首个以人形机器人为参赛主体的格斗竞技赛事"CMG世界机器人大赛·系列赛"机甲格斗擂台赛在杭州举行,展现人形机器人在运动控制、平衡能力等方面的新突破 [2] - 比赛采用积分制,分3回合每回合2分钟,击中头部躯干为有效击打,手部动作1分腿部3分,倒地扣5分8秒内无法起身扣10分 [5] - 宇树G1人形机器人参赛,身高1.3米体重35公斤,拥有29个自由度,动作流畅度与灵活性较高 [5] 遥控与非遥控技术对比 - 当前比赛以人操控手柄的遥控技术为主,考验算法和操控者反应力 [3] - 遥控技术是让人的大脑控制机器人的小脑,而非遥控需要搞定大脑,涉及视觉识别、状态定位及参赛策略等 [3] - 行业整体看复杂场景下的非遥控技术还需等待5年以上,研发技术和时间成本是主要压力 [4] 机器人性能与材料 - "鲁棒性"成为衡量性能核心指标,指机器人在环境扰动等情况下能精准处理多关节协同运动,实现毫秒级响应 [6] - 机器人采用碳纤维骨架与铝合金材料减轻重量保障结构强度,关节使用高扭矩密度电机与精密减速器支持爆发性动作 [9] - 足底六维力传感器实现毫米级压力检测维持动态调整步态,脊柱与仿生结构利用刚柔耦合设计吸收冲击力 [9] 非遥控技术挑战 - 实时感知与决策算法能力不足是非遥控技术核心难点,需具备实时环境感知、意图识别和动态决策能力 [11] - 硬件上需更高算力边缘计算芯片和冗余传感器网络,AI芯片模块占控制系统成本大头,六维力传感器高成本阻碍规模化应用 [13] - 动态平衡控制需协调全身关节力矩与地面反作用力,现有算法对极端干扰鲁棒性不足 [13] 技术发展预期 - 未来3至5年机器人有望实现独立行走、奔跑等基础非遥控技术,但复杂场景完全自主控制需更长时间 [14] - 成都人形机器人创新中心发布全国首个无需遥控的Raydiculous-1系统,具备自主学习处理跨场景任务特性 [10]