时空推理

搜索文档
理想OmniReason: 更像人的VLA决策框架
理想TOP2· 2025-09-07 20:09
核心观点 - 理想汽车发布OmniReason框架 将自动驾驶决策从静态感知重构为动态时空推理 通过知识蒸馏注入人类驾驶先验知识 提升系统智能性、可靠性和可解释性 [1][2] 数据集创新 - 发布两个大规模时空VLA数据集 OmniReason-nuScenes和OmniReason-Bench2Drive 具备密集时空标注和自然语言因果解释 [3] - 相比DRAMA、DriveLM等现有数据集 在多视角图像、时序数据、因果推理支持及天气道路多样性方面实现更全面覆盖 [3] 技术架构 - 采用三步走自动化标注流程:场景感知空间标注确保无幻觉基础描述 人类先验知识引导驾驶原则分析 多模态大模型生成多步推理因果链条 [5][6] - 智能体集成三大模块:环境感知与时序记忆模块采用EVA-02-L视觉编码器 稀疏时序记忆使L2误差从0.38m降至0.34m 碰撞率从0.44%降至0.40% 违规率从3.65%降至3.18% [7] - VLM推理核心处理整合场景特征 知识蒸馏桥梁连接数据与模型 系统性学习结构化决策理据和专家模式 [7] 性能表现 - 开环轨迹规划任务中平均L2距离误差0.34米 与最佳ORION方法持平 平均碰撞率0.40%优于多数基线 违规率3.18%创SOTA纪录 [8] - 驾驶场景VQA任务CIDEr指标提升37.6% BLEU-4指标大幅提升224.0% [8] - 第三方OmniDrive测试中所有指标超越LLaVa-next 72B和Qwen2.5VL 72B等模型 再创SOTA验证架构鲁棒性 [8]