Workflow
端到端学习
icon
搜索文档
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑的物流分拣视频,显示其在实际工作场景中的表现[1] - 机器人能够灵活处理多种形态包裹,包括硬纸盒、聚乙烯袋、信封等可折叠或弯曲物品[10] - 通过即时调整抓取策略,机器人可对不同形态包裹采取不同处理方式,如双手翻转纸盒或单手轻捏信封边缘[13] 技术性能提升 - 通过扩展高质量演示数据集和改进Helix神经网络架构,机器人工作稳定性和性能显著提升[7] - 包裹平均处理速度达到4.05秒,吞吐量提高58%,条形码识别成功率从88.2%升至94.4%[17] - 引入视觉记忆、状态历史和力反馈模块,使机器人具备时间背景感和环境适应能力[20][22][28] 系统功能特点 - 机器人具备自主学习能力,能够从演示中学习自适应行为如拍打塑料包装抚平条形码[15] - 采用端到端学习模型,可实现人机自然交互,无需单独程序即可识别人类交接物品的意图[31] - 新策略使条形码识别成功率提升至94%,处理时间降至4.05秒,精度保持在92%以上[30] 行业应用前景 - 技术改进使机器人系统更加灵巧可靠,接近人类水平的工作速度和准确性[19] - 机器人参与物流工作引发行业对效率和成本优势的关注[37] - 仿人型机器人在物流领域的应用引发关于外形设计与效率关系的讨论[39]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑物流分拣视频,处理能力接近人类水平[1][2] - 机器人可灵活处理多种形态包裹(硬纸盒、聚乙烯袋、信封等),并能同时进行多包裹操作[4][10] - 通过实时数据观察学习,机器人具备自适应行为如拍打塑料包装抚平条形码[15] 技术性能提升 - 平均处理速度达4.05秒/包裹,吞吐量提升58%,条形码识别成功率从88.2%升至94.4%[17] - Helix神经网络架构改进包括视觉记忆、状态历史、力反馈三大模块[20][22][26][28] - 新策略使条形码朝下识别成功率提升至94%,处理时间降至4.05秒,精度保持92%以上[30] 系统功能特性 - 端到端学习模型支持人机自然交互,无需程序切换即可响应人类手势传递物品[31][33] - 视觉记忆模块使机器人具备时间背景感,能调用历史图像帧辅助定位标签[23][25] - 力反馈系统形成闭合控制回路,实现精准运动调整以适应不同包裹特性[28] 行业应用反馈 - 技术宅讨论物流机器人仿生外型设计是否最优,提出三头六臂可能更高效[39] - 网友关注机器人参与物流工作带来的效率提升和成本优化潜力[37] - 行业观察者注意到机器人自主学习的条形码处理技巧(如拍打抚平)[15]